Затормаживание ускоренного градиентного спуска Нестерова с высокой регуляризацией в экстремальной обучающей машине

Вопрос или проблема

Я реализую метод ускоренного градиентного спуска Нестерова (NAG) для нейронной сети с экстремальным обучением (ELM) с одним скрытым слоем. Моя функция потерь — среднеквадратичная ошибка (MSE) с L2-регуляризацией.

Вычисляемый градиент:

где:

W2 — это матрица параметров,
H — матрица активации скрытого слоя (фиксированная в ELM),
d — целевой выход,
λ — параметр регуляризации.

Если мы выбираем фиксированный шаг, зависящий от выпуклости альфа и гладкости бета функции, теория дает теоретические гарантии монотонного уменьшения разрыва с оптимальным решением, как показано в уравнении ниже из Bubeck 2015:

Где k — число обусловленности функции.

Проблема:

Если я выбираю высокое значение λ (равное или больше 1), теория предсказывает, что сходимость быстрее, так как число обусловленности функции ниже. Именно это я наблюдаю в экспериментах. Однако, хотя мой алгоритм достигает приемлемого разрыва быстро, затем он замирает, даже если теория предсказывает монотонное уменьшение. Это пример типичной кривой обучения (оранжевым цветом показан теоретический наихудший разрыв, синим — алгоритм).

Мои вопросы:
Как я могу объяснить тот факт, что теория предсказывает границу сходимости, в то время как мой алгоритм застревает из-за малых градиентов?
Является ли эта проблема присущей L2-регуляризации при высоких значениях λ, или это специфично для моей реализации?
Любые идеи, математические объяснения или практические предложения будут очень полезны!

Заранее спасибо за вашу помощь!

Примечание: это происходит независимо от выбранной проблемы, размера скрытого слоя и функции активации.

Ответ или решение

Использование ускоренного градиентного спуска Нестерова (NAG) в контексте Extreme Learning Machine (ELM) может быть мощным инструментом для оптимизации, особенно учитывая, что метод NAG часто предлагает улучшенные скорости сходимости по сравнению с классическими методами оптимизации. Однако ваш вопрос о том, почему алгоритм застревает при использовании высокой регуляризации (λ), действительно требует более глубокого понимания и анализа.

Теоретическая часть: Nesterov ускоряет градиентный спуск за счет прогнозирования обновлений на основе направления градиента. Основное преимущество этой техники заключается в том, что она часто может предвидеть будущее направление движения параметров, тем самым минимизируя количество необходимых итераций. С математической точки зрения, теория Нестерова дает гарантию монотонного уменьшения разрыва в оптимальном решении, в зависимости от выпуклости (α) и гладкости (β) функции.

При использовании L2-регуляризации в задаче оптимизации вы, по существу, минимизируете переобучение, контролируя величину весов. Это достигается путем добавления к целевой функции члена регуляризации, который штрафует большие значения параметров. Высокая λ должна, теоретически, уменьшать количество различных возможных решений (или мультиколлинеарность), тем самым улучшая сходимость.

Пример на практике: Представьте, что вы используете NAG в системе ELM, состоящей из одного скрытого слоя, но замечаете проблему остановки, несмотря на теоретическую гарантию беспрепятственного уменьшения разрыва. Это замедление может быть связано с несколькими факторами:

Сглаживание ландшафта функции: Высокая L2-регуляризация может создать более плоский функциональный ландшафт. Это значит, что градиенты станут очень малыми, близкими к нулю, что может привести к остановке обновлений параметров.
Численная стабильность: Иногда численные особенности, такие как недостаточная точность при представлении чисел, могут также привести к проблемам остановки. Высокие значения λ могут усиливать чисто численные артефакты, что приводит к эффекту залипания.
Жесткость параметров: Постфиксная регуляризация может сильно зафиксировать значения весов, что особенно вредно для моделей, которым необходима гибкость для адаптации.

Применение и рекомендации: Решение этой проблемы может базироваться на нескольких подходах:

Изменение стратегии обучения: Рассмотрите возможность изменения шага обучения на время, балансируя между быстрым стартом и надежной долгосрочной сходимостью. Адаптивные схемы обновлений, такие как Adam или RMSProp, могут предложить лучшее управление шагами обучения.
Гиперметапараметры: Эмпирически исследуйте влияние гибридных или более низких значений λ, чтобы выяснить, позволяет ли это улучшить сходимость.
Модифицированные алгоритмы: Иногда внесение небольших структурных изменений в справочную реализацию градиентного спуска может помочь избежать ситуаций остановки, например, добавление случайного шума или техники отсечения градиентов.
Перепланирование модели: Иногда тип проблемы или модели может потребовать переход к другой форме активации или изменению размера слоев сети для достижения значительных улучшений.

Учитывая, что данная проблема стабильна независимо от размера скрытого слоя и функции активации, возможно, стоит более внимательно рассмотреть методологические предположения и ожидания. Основным заданием должен стать тщательный анализ текущей реализации, начальный анализ малых градиентов более аналитически, включая визуализацию и тщательное профилирование изменений градиентов по мере итераций. Таким образом, вы сможете приступить к локализации ключевых этапов, где наступает залипание, и последующей стратегии устранения.