Глубокая полносвязанная нейронная сеть с затухающими градиентами

Question 1

Я создаю нейронную сеть для выбора лучших ставок на футбольные матчи. И я попытался сделать сеть довольно глубокой (12 скрытых слоев с нормализацией батча между ними и функцией активации ReLu), но это привело к проблеме исчезающих градиентов.

Затем я сделал ее мелкой (2-3 слоя тем же образом), и это дало отличные результаты на обучающей выборке, но плохие на валидационной. Моя гипотеза заключается в том, что в этой конфигурации она могла запомнить все возможности (у меня около 14 000 примеров в обучающей выборке).

В конце концов, я сделал ее промежуточной между этими двумя – 8 скрытых слоев. И это дало довольно хорошие результаты как на обучающей, так и на валидационной выборке. Но я все еще немного беспокоюсь о проблеме исчезающих градиентов и о том, что это может быть просто coincidence.

У меня есть несколько вопросов по поводу того, что я только что написал:

Когда стоит беспокоиться об исчезающих градиентах? Я имею в виду, что могу проверять распределение градиентов в TensorBoard, но это не дает мне 100% уверенного ответа.
Могут ли помочь пропускающие соединения?
Существует ли какое-то правило о том, сколько слоев – это слишком много?

Question 2

Исчезающие градиенты могут возникать из-за добавления слишком большого количества слоев в сеть. Вы можете рассматривать нейронные сети как составные функции. В процессе обучения градиенты функции потерь по отношению к весам рассчитываются в соответствии с цепным правилом, и из-за большого количества слоев градиенты могут стать очень малыми из-за умножений. Это приводит к недостаточным обновлениям весов в направлении оптимальных точек функции потерь. Если ваша функция потерь едва уменьшается или вообще не изменяется, то причиной этого могут быть исчезающие градиенты.

Активационные функции, такие как tanh, сигмоид, также могут вызывать эту проблему, потому что их градиенты становятся нулевыми на крайних точках. Пропускающие соединения могут облегчить проблему исчезающих градиентов, потому что, когда соединения пропущены, расчет градиента следует более короткому пути, и меньшее количество умножений может облегчить проблему исчезающих градиентов. ResNets используют пропускающие соединения, чтобы облегчить проблему исчезающих градиентов: https://en.wikipedia.org/wiki/Residual_neural_network.

Если вы не наблюдаете снижения функции потерь, вы можете постепенно уменьшать количество слоев. Это гиперпараметр, и вы можете экспериментировать с разным количеством слоев, чтобы найти оптимальное количество, которое дает лучшие результаты.

Глубокая полносвязанная нейронная сеть с затухающими градиентами

Вопрос или проблема

Ответ или решение