Вопрос или проблема
Я пытался понять, почему регрессия с риджем имеет веса, близкие к 0 при больших значениях лямбда, но они никогда не равны 0, в отличие от лассо и простой линейной регрессии.
Согласно этому веб-сайту: https://www.analyticsvidhya.com/blog/2016/01/ridge-lasso-regression-python-complete-tutorial/
Они иллюстрируют концепцию, используя градиентный спуск. Для риджа они характеризуют обновление веса как:
$w_j^{t + 1} = (1 – 2*\lambda*\alpha)w_j^t + 2*\alpha \sum_{i=1}^n x_{ij}\{y_i – \sum_{k=0}^M w_k * x_{i,k}\}$
В статье утверждается, что, поскольку мы уменьшаем $w_j^t$ на фактор $(1 – 2*\lambda*\alpha)$, мы не можем получить 0, а можем только получить меньшие значения, стремящиеся к 0, при условии, что $\lambda, \alpha > 0$. Однако что, если $2 * \lambda * \alpha = 1$? Для этого случая нет объяснения.
Так кто-нибудь знает настоящую причину, почему ридж стремится к 0, но никогда не равен 0 для весов, в то время как лассо равен?
Я бы предложил вам почитать с: https://en.m.wikipedia.org/wiki/Lasso_(statistics)
Здесь представлены геометрические, байesianские и другие интерпретации, почему лассо способно достигать коэффициентов 0, в то время как ридж – нет.
Но на практике часто коэффициенты лассо также имеют тенденцию быть очень близкими к нулю, а не фактически равными нулю, как в случае с риджем.
Ответ или решение
Почему веса в Ridge-регрессии стремятся к 0, но никогда не достигают его, в отличие от Lasso
Ridge-регрессия и Lasso-регрессия – это два метода регуляризации, используемых для предотвращения переобучения моделей машинного обучения. Однако они различаются в том, как они обрабатывают коэффициенты весов. В данном ответе будет объяснено, почему Ridge никогда не достигает нуля, в то время как Lasso это делает.
1. Функция потерь и регуляризация
Основой Ridge-регрессии является функция потерь, включающая L2-регуляризацию. Она выглядит следующим образом:
[
L(w) = \frac{1}{n} \sum_{i=1}^n \left(y_i – \hat{y}i\right)^2 + \lambda \sum{j=1}^p w_j^2
]
Здесь (\lambda) – это коэффициент регуляризации. Цель заключается в минимизации ошибки предсказания и повышения обобщающей способности модели.
В отличие от этого, Lasso-метод использует L1-регуляризацию:
[
L(w) = \frac{1}{n} \sum_{i=1}^n \left(y_i – \hat{y}i\right)^2 + \lambda \sum{j=1}^p |w_j|
]
L1-регуляризация создает "углы" в решении, что приводит к обнулению некоторых весов в зависимости от значения (\lambda).
2. Геометрическая интерпретация
Геометрически, в Ridge-регрессии есть круг в пространстве весов, который соответствует L2-норме, а в Lasso – ромб, соответствующий L1-норме.
Поскольку круг ("Ridge") не создает углов, оптимальные значения весов будут находиться внутри круга, что означает, что они минимизируются, но никогда не достигают нуля.
Пример: Если представить, что веса увеличиваются, а L2-норма создает облако, все веса будут сжаты, но не дойдут до нуля, как это происходит при L1-норме с углами.
3. Математический анализ обновления весов
Формула обновления весов при использовании градиентного спуска для Ridge-регрессии имеет вид:
[
w_j^{t + 1} = (1 – 2 \lambda \alpha) wj^t + 2 \alpha \sum{i=1}^n x_{ij} (y_i – \hat{y})
]
В этом выражении, когда (\lambda) и (\alpha) положительны, коэффициент ((1 – 2 \lambda \alpha)) всегда остается меньше 1. Это приводит к тому, что значение весов w_j стремится уменьшаться, но не достигает нулевого значения.
Что касается случая, когда (2 \lambda \alpha = 1), вес обновляется следующим образом:
[
wj^{t + 1} = 0 + 2 \alpha \sum{i=1}^n x_{ij} (y_i – \hat{y})
]
Хотя тут и происходит обнуление весов в зависимости от факторов, это явление происходит не в рамках функции обновления, а лишь в теоретической интерпретации градиентного спуска.
4. Практические аспекты и применение
На практике, Ridge-регрессия очень эффективна в ситуации, когда важно удерживать все признаки, так как она не "сокращает" их до нуля, а просто уменьшает их влияние в модели. Lasso же полезен, когда необходимо сделать выбор среди признаков, что может привести к упрощению модели.
В заключение, Ridge-регрессия может уменьшать веса до значений, близких к нулю, но они никогда не достигают 0 из-за природы L2-регуляризации, фокусирующейся на постоянной поддержке всех признаков в модели. Lasso, с другой стороны, допускает обнуление весов, что делает его мощным инструментом для отбора переменных и упрощения моделей.
Если вам интересны дальнейшие исследования и нюансы, вы можете обратиться к дополнительным материалам, таким как статьи на Wikipedia или специализированные издания по машинному обучению.