Насколько важен поиск с предвосхищением в деревьях решений?

Question 1

Я использую случайные леса, и в моих данных существует много ситуаций, когда $X_1$ является плохим предиктором, $X_2$ является плохим предиктором, но совместное распределение может быть хорошим предиктором.

Предположим, что $X1$, $X2$ и $Y$ — это бинарные переменные. У нас есть $P(X_1|Y)=0.5$ и $P(X_2|Y=y)=0.5$ для любых $X_1,X_2,Y\in\{0,1\}$, но $P(X_1=1,X_2=1|Y=1)=1$.

Практический пример: я хочу предсказать, совпадают ли text1 и text2. Я добавил в качестве признака разность-в-использовании-!. Но разность-в-использовании-! может равняться нулю в двух очень разных случаях: когда ни один текст не содержит !, или когда оба используют ! в одинаковом количестве. Поэтому я добавил еще один признак: оба-текста-используют-!.

Проблема теперь заключается в том, что дерево решений должно быть ориентировано в будущее, потому что текст действительно совпадает только если разность-в-использовании-! очень мала и оба-текста-используют-! равняется 1.

Теперь, вероятно, я мог бы и должен объединить эти два признака в один более умный признак (всегда приветствуются предложения). Но у меня много таких признаков, и я задаюсь вопросом, являются ли деревья решений в моем случайном лесу, которые обучаются с использованием традиционного локального поиска, субоптимальными по сравнению с поиском с заглядыванием вперед.

Я прочитал в этой диссертации, что,

Как эмпирически исследовано в [Murthy and Salzberg, 1995], такой подход (использующий поиск с заглядыванием вперед) не только более вычислительно затратный, но и не значительно лучше, чем жадно построенные деревья решений.

Комментарий в скобках добавлен мной. Работа цитируется как другая диссертация, и она действительно говорит, что, например,

Контр-интуитивный результат о том, что поиск с заглядыванием вперед не улучшает жадный поиск, может показаться разумным, если последний сам строит близкие к оптимальным деревья.

Обе работы устарели, и, судя по тому, что я прочитал, они не углубляются в это (но я не читал их полностью). Мне интересно, знает ли кто-нибудь, существуют ли признаки, для которых будет работать только какой-то поиск с заглядыванием вперед, или же обычный локальный поиск подходит даже для этих случаев, и любые мысли о локальном пояске против поиска с заглядыванием вперед.

Question 2

Не существует общепринятой реализации дерева решений с поиском с заглядыванием вперед; все общепринятые реализации используют жадный поиск по признакам.

Используя жадный поиск по признакам, дерево решений может изучать условные зависимости. Например, дерево решений может выявлять описанные вами шаблоны. Первый разбиение будет либо 𝑃(𝑋₁|𝑌)=0.5, 𝑃(𝑋₂|𝑌=𝑦)=0.5, затем дополнительные разбиения определят 𝑃(𝑋₁=1,𝑋₂=1|𝑌=1)=1. Это похоже на задачу XOR, которую могут изучить деревья решений.

Насколько важен поиск с предвосхищением в деревьях решений?

Вопрос или проблема

Ответ или решение

Зачем нужен поиск с предвосхищением?

Практическая реализация

Обоснование жадного подхода

Рекомендации