Градиентный бустинг – Зачем псевдо-остатки?

Question 1

У меня есть несколько вопросов, которые я не совсем понимаю относительно алгоритма градиентного бустинга с решающими деревьями:

Имеет ли значение начальное значение как $\hat{y}$ или вы можете выбрать любое, например, между 0 и 1?
Почему мы подстраиваем дерево под псевдо-остатки? Какова выгода от подстройки деревьев под псевдо-остатки вместо целевых классов?

Question 2

Начальное предсказанное значение $\hat{y}^{(0)}$ не имеет значения для градиентного бустинга. Обычно оно устанавливается на среднее значение целевой переменной для регрессии или логарифмическое отношение вероятностей классов для классификации. Но любое разумное постоянное значение подходит в качестве начальной точки. Ключевое значение в том, что последующие деревья, подстраиваясь под остатки, обновят и улучшат это начальное предсказание. Это может повлиять на время сходимости алгоритма, если выбрано ужасное начальное значение.
Мы подстраиваем деревья под псевдо-остатки, а не под целевые классы, потому что это позволяет каждому дереву сосредоточиться на исправлении ошибок модели ансамбля на данный момент. Псевдо-остатки представляют собой разницу между текущими предсказаниями модели и истинной целевой переменной. Поэтому подстраивание дерева для предсказания этих остатков позволяет дереву специализированно работать над сложными примерами, которые текущие деревья обрабатывают неправильно. Эта дополнительная специализация деревьев на остатках делает градиентный бустинг столь эффективным. Деревья, подстраивающиеся под остатки, уменьшают смещение, в то время как деревья, подстраивающиеся непосредственно под целевую переменную, могут переобучиться и увеличить дисперсию.

Я настоятельно рекомендую посмотреть следующие видео с канала StatQuest, которые четко объясняют алгоритмы бустинга.

ИЗМЕНЕНИЕ: Объясняя следующее утверждение

Деревья, подстраивающиеся под остатки, уменьшают смещение, в то время как деревья, подстраивающиеся непосредственно под целевую переменную, могут переобучиться и увеличить дисперсию.

Когда мы подстраиваем решающие деревья непосредственно под целевую переменную (например, напрямую предсказываем цены на жилье), они могут легко переобучиться на обучающих данных. Одно дерево уже является сложной моделью с высокой дисперсией, и подстраивание его сразу под шумные цели часто приводит к переучиванию на шуме и выбросах.

Это переобучение увеличивает дисперсию, не обязательно уменьшая смещение. Таким образом, мы получаем очень сложную, изогнутую модель, которая не может обобщаться.

Однако, когда мы подстраиваем деревья для моделирования остатков, мы меняем цель. Вместо того, чтобы запоминать шумные цели, дерево сосредотачивается на объяснении ошибок текущей модели. Остатки представляют собой смещение нашей модели – примеры, которые она постоянно обрабатывает неправильно.

Подстраивая деревья для исправления этих остатков, мы уменьшаем смещение, ограничивая рост дисперсии, потому что деревья не могут переобучиться относительно того, что было до них. Подстройка под остатки заставляет деревья сосредотачиваться на систематических ошибках, а не на шуме.

Ансамблирование сглаживает дисперсию по множеству деревьев, оставляя нам сильное уменьшение смещения, которое гораздо лучше обобщается. Именно поэтому GBDT превосходит случайные леса, несмотря на то, что оба используют деревья – обучение, сосредоточенное на остатках, предотвращает переобучение.

Градиентный бустинг – Зачем псевдо-остатки?

Вопрос или проблема

Ответ или решение

Градиентный бустинг — Почему псевдостатистики?

1. Значение начального значения $\hat{y}^{(0)}$

2. Почему мы подгоняем деревья к псевдостатистикам?

Пояснение к последнему утверждению