Разделитель в деревьях решений в реализации sklearn

Question 1

Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают. Но моя проблема заключается в том, как sklearn выбирает признаки и пороги для расчета этих метрик.

Оценщик sklearn.tree.DecisionTreeClassifier имеет параметр splitter. Позвольте мне сказать, что все ресурсы, доступные в Интернете, не очень хорошо объясняют этот параметр, и они противоречат друг другу. Я все еще не понимаю, что произойдет, если я установлю splitter="best": означает ли это, что алгоритм будет рассматривать все признаки со всеми их значениями, чтобы получить лучшее значение порога? И в этом случае атрибут max_features не будет иметь никакого эффекта? А если я установлю splitter="random", алгоритм случайным образом выберет определенное количество признаков = max_features из всех признаков и будет искать для каждого из этих признаков определенные случайные значения, чтобы найти порог для разбиения?

Question 2

если я установлю splitter=”best”, означает ли это, что алгоритм будет рассматривать все признаки со всеми их значениями, чтобы получить лучшее значение порога ?? и в этом случае атрибут max_features не будет иметь никакого эффекта ?

Почти: max_features все равно имеет значение здесь. Признаки max_features выбираются случайным образом, но для каждого из них выбирается лучший среди всех возможных порогов.

И если я установлю splitter=”random”, алгоритм случайно выберет определенное количество признаков = max_features из всех признаков и будет искать для каждого из этих признаков определенные случайные значения, чтобы найти порог для разбиения ?

Верно, max_features имеет такой же эффект независимо от разбиения, но когда splitter="random", вместо того чтобы проверять каждый возможный порог для разбиения на признаке, проверяется один случайный порог, выбранный равномерно между минимальным и максимальным значением признака. Исходный код

Question 3

Каковы преимущества splitter="random" по сравнению с splitter="best", кроме скорости обучения? И насколько это ускорение сказывается на времени тренировки?

Позволяет ли выбор случайных разбиений в каждом признаке получить более крупный ансамбль декоррелированных слабых учеников с низким смещением? Так что, когда они объединяются, модель достигает большей точности за счет более эффективного снижения общей дисперсии? Привнесет ли эта дополнительная случайность рост среднего смещения слабых учеников и компенсирует ли выигрыш в точности со стороны дисперсии?

Помните, что для случайного леса его смещение — это среднее смещение его слабых учеников, а дисперсия
$$
Var[X] = \rho(x)\sigma^2_{\mathcal{L}}(X) + \frac{1-\rho(x)}{M}\sigma^2_{\mathcal{L}}(X).
$$
$\rho(x) \in [0,1]$ указывает на корреляцию между слабыми учениками (т.е. если они выбираются случайным образом (независимо) $\rho \rightarrow 0$), $M$ — это размер ансамбля, а $\sigma^2_{\mathcal{L}}(X)$ — это дисперсия одного слабого ученика $\mathcal{L}$.

Таким образом, для эффективного уменьшения ошибки модели Random Forest нам нужно как можно больше случайности во время обучения слабых учеников, чтобы $\rho \rightarrow 0$, и увеличение $M$ сказалось. В таком случае
$$
\mathrm{as} \quad M\rightarrow \infty, \quad Var[X] = \rho(x)\sigma^2_{\mathcal{L}}(X) \rightarrow 0.
$$

На данный момент (1.5.2 последняя стабильная версия) модели случайного леса scikit-learn используют splitter=best для своих деревьев решений и не позволяют менять это. Должно ли это быть разрешено и просто установить текущее значение по умолчанию? @разработчики sklearn!!

Источник:

ПОНИМАНИЕ СЛУЧАЙНЫХ ЛЕСОВ от теории к практике Гийом Луппе
2015

Разделитель в деревьях решений в реализации sklearn

Вопрос или проблема

Ответ или решение

Параметр `splitter`

Когда `splitter="best"`

Когда `splitter="random"`

Преимущества использования `splitter="random"`

Влияние на бедственное и диспетчерское начало

Заключение

Разделитель в деревьях решений в реализации sklearn

Вопрос или проблема

Ответ или решение

Параметр splitter

Когда splitter="best"

Когда splitter="random"

Преимущества использования splitter="random"

Влияние на бедственное и диспетчерское начало

Заключение

Параметр `splitter`

Когда `splitter="best"`

Когда `splitter="random"`

Преимущества использования `splitter="random"`