Понимание концепции убывающего градиента и проблемы взрывающегося градиента в контексте обучающих данных.

Question 1

Я пытаюсь понять суть концепций “проблема исчезающего градиента и взрывающегося градиента” с точки зрения реальных примеров ввода-вывода, а не относительно свойств выбора функции активации.

Не может ли кто посоветовать хороший учебник, который включает такие примеры?

Question 2

Я всегда рекомендую документы “Эндрю Нг”, если они доступны для понимания машинного обучения. Я верю, что ссылка на YouTube Исчезающий и взрывающийся градиент поможет вам лучше понять концепцию.

Тем не менее, кратко с моей стороны:

Глубокая нейронная сеть (DNN) из K слоев без функции активации будет похожа на
умножение K коэффициентов (весов) вместе. Если вы получили
начальное значение коэффициента меньше 0, в этом случае при обратном
распространении до тех пор, пока вы не достигнете начальных слоев (с стороны входного слоя),
возможно, вы полностью потеряли значение градиента,
поскольку постепенно умножаете меньшее значение, т.е. исчезающее значение. Аналогичным образом, если начальное
значение коэффициента больше 0, умножение вместе приведет к образованию очень большого
числа, т.е. взрывающегося значения.

Question 3

Хороший способ понять и интуитивно осмыслить концепцию исчезающих градиентов и взрывающих градиентов – это вручную решить задачу с помощью обратного распространения. Поскольку сеть с прямой связью (Feed Forward Neural Network) является самой простой из всех и в основном функция сигмоиды и Tanh страдают от исчезающего градиента.
Было бы разумно построить МПН с по меньшей мере одним скрытым слоем и вычислить изменение значений параметров после прямого прохода, расчета ошибки и обратного прохода для обновления весов и смещений, инициализированных случайно.
https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/

Аналогично, РНН в основном страдают от взрывающегося градиента, вы могли бы применить тот же метод.

Может показаться чрезмерным прилагать такие усилия для понимания концепций, но это стоит вашего времени.

Question 4

На высоком уровне вы можете думать о исчезающих градиентах таким образом, как работает китайский шепот: часть оригинальной информации теряется каждый раз, когда она передается назад другому человеку. Аналогичным образом архитектура РНН “теряет” часть оригинальной информации о градиенте, когда она распространяется от самого последнего временного шага назад к самому первому шагу.

Углубляясь в детали, смотрите ниже:

Исчезающие градиенты

Традиционные рекуррентные нейронные сети (РНН) обладают способностью моделировать последовательные события, распространяясь во времени, т.е. выполняя прямое и обратное распространение. Модели РНН соединяют каждый временной шаг (например, положение слова в предложении) с использованием следующей функции, определенной как скрытое состояние:

$a_n = f(W_n, a_{n-1}, x_n)$

Скрытое состояние $a_n$ сохраняет информацию прошлого, применяя линейную комбинацию над предыдущим шагом и текущим входом.

Проблема заключается в том, что скрытое состояние каждой текущей позиции является функцией всех предыдущих позиций. Это означает, что когда вы обратным распространением градиентов через время (см. BPTT) градиент по существу “теряет” часть своей “амплитуды” из-за правила цепи в $a_n$:

$a_n = f(W_n, a_{n-1}, x_n) = f(W_n, f(W_{n-1}, a_{n-2}, x_{n-1}), x_n)$, так как $ a_{n-1}=f(W_n, a_{n-2}, x_n)$.

Таким образом, чем длиннее входная последовательность, тем хуже долгосрочные зависимости будут захватываться из-за способа, которым градиенты исчезают из-за правила цепи в их скрытом состоянии.

Надеюсь, это поможет. Вот моя соответствующая запись, если она также может быть полезна https://datascience.stackexchange.com/a/84409/102852

Понимание концепции убывающего градиента и проблемы взрывающегося градиента в контексте обучающих данных.

Вопрос или проблема

Исчезающие градиенты

Ответ или решение

Затухающий градиент

Взрывающийся градиент

Примеры из реального мира

Заключение