Может ли нормализация батчей заменить tanh в RNN?

Question 1

Вопрос

Можно ли внедрить нормировку пакетом (BN) в RNN после $x_t@W_{xh}$, и после $h_{t-1}@W_{hh}$, чтобы убрать $f=tanh$ и смещение $b_h$? Если возможно, устранит ли это проблемы взрыва и исчезновения градиента?

Я считаю, что эффект tanh по приведению значений из [-inf, +inf] в (-1, 1) может быть заменен стандартизацией в BN, и это делает лишним смещение в $x_t@W_{xh}$ и $h_{t-1}@W_{hh}$.

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Автоматическое дифференцирование tanh также должно быть заменено на BN.

Предыстория

Говорят, что tanh решает проблему взрыва градиента в RNN, поэтому он используется.

Зачем нужна вторая tanh() в ячейке LSTM

Проблемой рекуррентных нейронных сетей является потенциальный взрыв градиентов из-за повторяющегося механизма обратного распространения.

После оператора сложения абсолютное значение c(t) потенциально больше 1. Прохождение через оператор tanh гарантирует, что значения снова отмасштабированы между -1 и 1, что увеличивает стабильность во время обратного распространения на протяжении многих временных шагов.

[D] Зачем использовать tanh в RNN?

Проблема исчезновения градиента является основной проблемой в RNN. Кроме того, чтобы удержать градиент в линейной области активационной функции, нам нужна функция, вторая производная которой может сохраняться на длительном интервале перед уходом в нуль. Tanh обладает хорошими свойствами для этого.

Нормировка пакетом может решить оба вопроса — как взрыв, так и исчезновение градиента.

Batch Normalization: The Greatest Breakthrough in Deep Learning

Решение проблемы исчезновения градиента. Хотя внутренний ковариационный сдвиг может и не улучшать точность, он в некоторой степени связан с проблемой исчезновения градиента. Когда распределение входов смещается, это приводит к изначально меньшим обновлениям градиента из-за активационных функций (например, сигмоиды, которая уменьшает значения вплоть до ±2.5, или ReLU, которая присваивает любому x < 0 значение 0). Нормировка пакетом помогает обеспечить, чтобы сигнал был услышан и не ослаблялся смещением распределений от конца до начала сети во время обратного распространения.

Решение проблемы взрыва градиента. Поскольку нормировка пакетом сглаживает ландшафт оптимизации, она избавляется от экстремальных градиентов, которые накапливаются, что приводит к устранению основных колебаний веса, возникающих из-за накопления градиента. Это значительно стабилизирует обучение.

Исследование

Существует несколько статей и работ, которые предполагают, что это возможно, но не удалось найти простую схему реализации или пример кода.

Является ли нормальным использование нормировки пакетом в RNN и LSTM? [закрыто]

Для RNN это означает вычисление соответствующих статистик по мини-пакету и по временной/шаговой размерности, так что нормализация применяется только по глубинам векторов. Это также означает, что вы нормализуете только преобразованный вход (по вертикальным направлениям, например, BN(W_x * x)), поскольку горизонтальные (по времени) связи зависят от времени и не должны просто усредняться.

Рекуррентная Нормировка Пакетом

Мы предлагаем перепараметризацию LSTM, которая приносит пользу нормировки пакетом для рекуррентных нейронных сетей. В то время как предыдущие работы применяют нормировку пакетом только к преобразованию “вход в скрытое состояние” RNN, мы демонстрируем, что нормализация перехода “скрытое в скрытое” также возможна и полезна, снижая внутренний ковариационный сдвиг между временными шагами.

Хотя нормировка пакетом показала значительные ускорения обучения и улучшение обобщающей способности в прямых сетях, было трудно применить ее в рекуррентной архитектуре (Laurent et al., 2016; Amodei et al., 2015). Ее использование было ограничено в сложенных RNN, где нормировка применяется “вертикально”, то есть ко входу каждого RNN, но не “горизонтально” между временными шагами. RNN глубже во временном направлении, и такая нормировка была бы наиболее полезна при горизонтальном применении. Однако Laurent et al. (2016) предположили, что такое применение нормировки пакетом вредно для обучения из-за взрыва градиентов из-за повторного масштабирования. Наши результаты противоречат этой гипотезе. Мы показываем, что это и возможно, и крайне полезно – применять нормировку пакетом в переходах “скрытое в скрытое” рекуррентных моделей.

Нормировка Слоя

Question 2

Вертикальная BN приемлема, но горизонтально после вектора скрытого состояния нам нужна нормировка слоя вместо tanh, и это то, что я попробую сегодня. Затем вероятно 0,2 dropout для скрытого состояния.

Может ли нормализация батчей заменить tanh в RNN?

Вопрос или проблема

Вопрос

Предыстория

Исследование

Ответ или решение

Теория

Пример

Применение