Вопрос или проблема
L2-регуляризация приводит к минимизации значений в векторном параметре. L1-регуляризация приводит к установке некоторых коэффициентов в 0 в векторе параметров.
Генерально, я наблюдал, что недифференцируемая регуляризационная функция приводит к установке коэффициентов в 0 в векторе параметров. Почему это так?
Посмотрите на штрафные термины в линейной регрессии Ridge и Lasso:
Ridge (L2):
Lasso (L1):
Обратите внимание на абсолютное значение (норма L1) в штрафе Lasso по сравнению с квадратным значением (норма L2) в штрафе Ridge.
В книге “Введение в статистическое обучение” (глава 6.2.2) написано:
“Как и в случае регрессии Ridge, Lasso сжимает оценки коэффициентов к нулю. Однако в случае Lasso L1-штраф заставляет некоторые оценки коэффициентов быть точно равными нулю, когда коэффициент настройки λ достаточно велик. Следовательно, подобно выбору наилучшего подмножества, Lasso выполняет выбор переменных.”
ISLR подробно обсуждает эту тему, ее можно понять, взглянув на контуры ошибки и функции потерь, представленные на изображении ниже:
Каждая из эллипсов, сосредоточенных вокруг βˆ, представляет контур: это означает, что все точки на определенном эллипсе имеют одинаковое значение RSS. По мере расширения эллипсов от оценок коэффициентов наименьших квадратов RSS увеличивается. Уравнения (6.8) и (6.9) указывают на то, что оценки коэффициентов регрессии Lasso и Ridge даются первой точкой, в которой эллипс касается области ограничения. Поскольку регрессия Ridge имеет круговое ограничение без острых точек, это пересечение обычно не произойдет на оси, и, следовательно, оценки коэффициентов регрессии Ridge будут исключительно ненулевыми. Однако ограничение Lasso имеет углы на каждой из осей, и поэтому эллипс часто будет пересекать область ограничения на оси. Когда это происходит, один из коэффициентов будет равен нулю. В более высоких измерениях многие из оценок коэффициентов могут одновременно равняться нулю.
Для ортогональных признаков можно показать с помощью субпроизводных методов, что $\hat\beta_{j}^{\text{Lasso}}=\hat\beta_{j}^{\!\;\text{OLS}} \max \Biggl( 0, 1 – \frac{ N \lambda }{ \bigl|\hat\beta{}_j^{\!\;\text{OLS}}\bigr| } \Biggr)$. Здесь вы видите, что некоторые коэффициенты регрессии установлены ровно в 0. Люди называют это оператором мягкого порога. Доказательство с помощью субпроизводных необходимо, поскольку абсолютная функция не имеет нормальной производной.
Ответ или решение
Почему недифференцируемая регуляризация приводит к обнулению коэффициентов?
В области машинного обучения и статистики регуляризация является ключевым элементом, позволяющим предотвратить переобучение моделей и улучшить их обобщающую способность. Давайте подробнее рассмотрим, почему недифференцируемые регуляризационные функции, такие как L1-регуляризация (лассо), приводят к установлению некоторых коэффициентов в ноль, в то время как дифференцируемые функции, такие как L2-регуляризация (ридж), таких эффектов не имеют.
1. Пространство решений
Рассмотрим пространство решений в задачах линейной регрессии. Для ридж-регрессии используется L2-штраф, который равен квадрату нормы коэффициентов. Это создает круговую область допустимых решений (constraint region). Когда контуры ошибки пересекаются с этой областью, они, как правило, не касаются осей, что означает, что все коэффициенты остаются ненулевыми.
С другой стороны, лассо-регрессия основывается на L1-штрафе, который равен абсолютной величине нормы коэффициентов. В этом случае область допустимых решений имеет форму ромба (или квадрата в двухмерном пространстве), которая имеет острые углы. Это означает, что когда контуры ошибки касаются области ограничения, они могут пересекать оси, что создаёт возможность для некоторых коэффициентов равняться нулю.
2. Непрерывность и недифференцируемость
L1-нормы обладают особенностью, заключающейся в том, что их производная не существует в нуле. Это недифференцируемое поведение в точке нуля делает L1-регуляризацию более чувствительной к установке коэффициентов в ноль. В ситуации, когда штраф при увеличении λ недостаточно компенсирован увеличением значений коэффициентов, производные не обеспечивают "поддержки" при прокладывании пути решения, и поэтому некоторые коэффициенты сбрасываются на ноль.
Формально, если рассмотреть оценку коэффициентов для лассо-регрессии:
[
\hat{\beta}{j}^{\text{Lasso}} = \hat{\beta}{j}^{\text{OLS}} \max \left( 0, 1 – \frac{N \lambda}{|\hat{\beta}_{j}^{\text{OLS}}|} \right)
]
При этом значении поступает "мягкий порог" (soft thresholding operator). Если произойдёт фактическое попадание в этот порог, коэффициент равняется нулю.
3. Важность выбора параметра λ
Выбор значения параметра λ в лассо-регрессии критически важен. Большие значения λ активно усиливают эффект регуляризации, приводя к тому, что больше коэффициентов начинает принимать значение нуль. Это поведение предоставляет возможность для селекции признаков, что является одной из привлекательных характеристик L1-регуляризации.
4. Заключение
Итак, заключая, недифференцируемые регуляризационные функции, такие как L1-регуляризация, приводят к обнулению некоторых коэффициентов в векторе параметров из-за их уникальной геометрической формы and несовершенств в производных. Это позволяет моделям выполнять селекцию признаков, что делает лассо особенно полезным в сценариях с большим количеством признаков, где не все из них имеют равное значение для прогнозирования. Таким образом, регуляризация позволяет не только уменьшать сложность модели, но и улучшать её интерпретируемость, оставляя только значимые признаки.