Корректная теоретическая регуляризованная объектная функция для XGB/LGBM (задача регрессии)

Содержание

Вопрос или проблема
Ответ или решение
Ответ на вопрос о регуляризованной целевой функции XGBoost и LightGBM
(a) Регуляризованная целевая функция с L1 и L2 регуляцией
(b) Отличие целевой функции LightGBM от XGBoost
(c) Практическое и теоретическое использование L1 и L2 регуляризации
Заключение

Вопрос или проблема

Я пишу академическую работу по применению методов машинного обучения к прогнозированию временных рядов, и не уверен, как описать теоретическую часть о регуляризованной целевой функции для XGBoost. Ниже вы можете найти уравнение, представленное разработчиками алгоритма XGB для регуляризованной целевой функции (уравнение 2). Статья называется “XGBoost: A Scalable Tree Boosting System” авторов Чена и Гестрина (2016). В Python API библиотеки xgb есть возможность использовать параметр reg_lambda (параметр L2 регуляризации; эквивалент регрессии Риджа) и параметр reg_alpha (параметр L1 регуляризации; эквивалент регрессии Лассо). Я немного запутан в том, как авторы устанавливают регуляризованную целевую функцию. Согласно моему пониманию, пеня Риджа задается как $\lambda \sum_{j=1}^p \beta_j^2$, а пеня Лассо задается как $\lambda \sum_{j=1}^p |\beta_j|$. Однако авторы статьи, похоже, используют комбинацию этих двух понятий, которая не эквивалентна ни одному из них, так как они применяют модуль и возводят в квадрат термин бета.

Таким образом, мои вопросы следующие:

(a) Как выглядит регуляризованная целевая функция, если вы хотите включить параметры l1 и l2 в одну модель?

(b) Как целевая функция алгоритма LGBM (light GBM) отличается от XGB или идентична ли она, поскольку разработчики алгоритма LGBM не предоставляют никаких теоретических деталей о целевой функции или итерациях бустинга в своей статье “LightGBM: A Highly Efficient Gradient Boosting” (Ke и др., 2017). Согласно моему пониманию, единственное отличие заключается в том, что вычисление происходит быстрее, так как алгоритм LGBM более эффективно вычисляет прирост информации на разбиениях регрессионного дерева, и функции объединяются, или я что-то неправильно интерпретирую/упускаю?

(c) Имеет ли смысл включать как l1, так и l2 регуляризационные термины в одну и ту же модель бустинга с теоретической и практической точки зрения?

Для вопроса (a) это должно быть так же просто, как добавить обычную L1 пеню:
$$\begin{align*}
\Omega(f) &= \gamma T + \alpha \|w\|_1 + \frac12\lambda\|w\|_2^2 \\
&= \gamma T + \alpha \sum |w_i| + \frac12\lambda \sum w_i^2
\end{align*}$$

Для (b) смотрите LightGBM против XGBoost

Для (c) смотрите L1 & L2 Регуляризация в Light GBM

Ответ или решение

Ответ на вопрос о регуляризованной целевой функции XGBoost и LightGBM

Ваша работа над применением методов машинного обучения для прогнозирования временных рядов требует глубокого понимания теоретической основы таких алгоритмов, как XGBoost и LightGBM. Позвольте ответить на ваши вопросы, начав с регуляризованной целевой функции для XGBoost.

(a) Регуляризованная целевая функция с L1 и L2 регуляцией

Регуляризованная целевая функция для XGBoost с включением как L1 (Lasso), так и L2 (Ridge) регуляции может быть записана следующим образом:

[
\Omega(f) = \gamma T + \alpha |w|_1 + \frac{1}{2} \lambda |w|_2^2
]

где:

(T) — количество листья дерева,
(w) — веса модели,
(\alpha) — параметр L1-регуляции (параметр Lasso),
(\lambda) — параметр L2-регуляции (параметр Ridge),
(\gamma) — штраф за сложность модели.

В этом уравнении (|w|_1) обозначает сумму абсолютных значений весов, а (|w|_2^2) — сумму квадратов весов. Интуитивно это позволяет модели одновременно сохранять как разреженные, так и сглаженные параметры, что может быть полезно в разных контекстах.

(b) Отличие целевой функции LightGBM от XGBoost

LightGBM имеет схожую структуру целевой функции с XGBoost, но существует несколько ключевых различий. Хотя разработчики LightGBM не предоставили столь же подробную теоретическую основу, как это сделали Chen и Guestrin для XGBoost, основные отличия, которые стоит отметить, это:

Эффективность вычислений: LightGBM использует метод, называемый "Histogram-based Learning", что позволяет значительно ускорить процессы сортировки и разделения при построении деревьев.
Работа с большими данными: LightGBM может обрабатывать более крупные наборы данных и использовать подходы, такие как "Gradient-based One-Side Sampling" (GOSS) и "Exclusive Feature Bundling" (EFB), что делает алгоритм более масштабируемым.
Гибкость в управлении деревьями: LightGBM позволяет настраивать порядок построения деревьев и может быть более эффективным для высокоразмерных проблем.

С точки зрения целевой функции, для базового регрессионного случая можно ожидать, что она будет похожа на XGBoost с использованием аналогичных компонентов, но может отсутствовать явное указание на L1 и L2 регуляцию без детальной спецификации.

(c) Практическое и теоретическое использование L1 и L2 регуляризации

Включение как L1, так и L2 регуляризации в одной модели имеет смысл как с теоретической, так и с практической точки зрения.

Теоретическая основа: Комбинация L1 и L2 может помочь в балансировке преимуществ каждого подхода. L1 обеспечивает разреженность и может вести к более интерпретируемым моделям, в то время как L2 помогает в уменьшении дисперсии и предотвращении переобучения.
Практическое применение: Использование обоих типов регуляризации может позволить вам одновременно отбирать важные признаки и улучшить обобщающую способность вашего алгоритма. Это может быть особенно полезно в задачах с высокой размерностью, где присутствует много нерелевантных признаков.

Этот подход также заметно практичен в контексте многомерных временных рядов, где наличие как разреженных, так и регуляризованных коэффициентов может улучшить качество прогноза.

Заключение

Таким образом, ваша теоретическая база для описания регуляризованной целевой функции в контексте XGBoost и LightGBM может обогатиться применением L1 и L2 регуляризаций во время моделирования. Эти аспекты поддерживают более глубокое понимание и взаимодействие между моделью и данными, что критично для успешного выделения паттернов в временных рядах. Надеюсь, это поможет вам в разработке вашей академической работы!