Понимание интуиции, лежащей в основе сигмоидной кривой в контексте обратного распространения.

Содержание

Вопрос или проблема
Ответ или решение
Понимание интуиции за сигмоидной кривой в контексте обратного распространения
1. Значимость больших и малых обновлений
2. Связь между производной сигмоиды и градиентом
Заключение

Вопрос или проблема

Я пытался понять значимость S-образной формы сигмоидной/логистической функции. Наклон/производная сигмоиды приближается к нулю для очень больших и очень маленьких значений входных данных. То есть $σ'(z) ≈ 0$ для $z > 10$ или $z < -10$. Таким образом, обновления весов будут меньше. В то время как обновления будут больше, когда $z$ не слишком большие и не слишком маленькие.

Я не понимаю, “почему это важно иметь меньшие обновления, когда $z$ слишком большой или слишком маленький”, и “большие обновления для не слишком больших / не слишком маленьких $z$“. Одно из обоснований, которые я прочитал, состоит в том, что это подавляет “вымойки”. Но как очень большие и очень маленькие $z=wx+b$ указывают на то, что соответствующие $x$ являются выбросами?
Также я не смог сопоставить кривую производной сигмоиды (синяя) с кривой градиентного спуска ниже. Связаны ли эти две кривые между собой каким-либо образом? Должны ли очень большие и очень маленькие $z$ в кривой сигмоиды совпадать с глобальными минимумами в середине кривой градиентного спуска?

Значение Z увеличивается, когда увеличивается ‘W’ (Z = W.A + b). Итак, сначала, почему W увеличивается? i) Данные не нормализованы, если это применимо. i) Неправильная инициализация весов. ii) Плохая архитектура сети, ведущая к взрывным градиентам.

Если мы хотим увеличить скорость обучения, мы регулируем W, или используем BatchNorm, или, по сути, центрируем данные, нормализуя данные перед обучением. Это происходит потому, что значение градиента ~0, если W слишком высоки или слишком низки, в результате чего при обновлении W, т.е. W:= W – (lr)*(dL/dW) будет почти равно W. Это тем самым снижает обучение.

Отвечая на ваши вопросы,

Не имеет значения иметь более низкие обновления, мы не хотим медленного обучения. Вот почему существуют алгоритмы с моментом, которые ускоряют градиентный спуск. Тем не менее, выбор подходящей функции активации по-прежнему играет важную роль (например, tanh лучше центрирует данные, чем сигмоида, так как ее среднее значение равно 0 по сравнению с сигмоидой)
Вы можете обратиться к обратному распространению здесь, которое показывает эффект активации в градиентном спуске

Ответ или решение

Понимание интуиции за сигмоидной кривой в контексте обратного распространения

Сигмоидная (логистическая) функция является одной из наиболее распространенных активационных функций в нейронных сетях. Ее S-образная форма непосредственно влияет на весовые обновления во время процесса обратного распространения. Рассмотрим подробнее, что это значит и какую роль играет производная сигмоиды в этом процессе.

1. Значимость больших и малых обновлений

Одной из ключевых особенностей сигмоидной функции является то, что её производная (σ'(z)) приближается к нулю при больших (например, (z > 10)) и малых (например, (z < -10)) значениях (z). Это приводит к тому, что обновления весов становятся очень маленькими. Давайте разберемся, почему это важно.

При больших значениях (z) (как положительных, так и отрицательных) выход функции приближается к 1 или 0. В этой области функция почти не изменяется, что делает её производную близкой к нулю. Это означает, что при обратном распространении ошибки, градиенты также будут близки к нулю. Следовательно, обновления весов будут минимальными.

Почему это имеет значение?

Меньшие обновления в зоне насыщения помогают избежать нестабильности в обучении, когда модель может ухудшать своё состояние из-за слишком больших изменений весов.
Если обновления слишком велики в этих областях, это может привести к колебаниям и замедлению сходимости алгоритма.

Также стоит отметить, что избыточные или недостаточные значения (z) не обязательно указывают на выбросы в данных сразу. Это может происходить в результате некорректной инициализации весов, неправильного выбора архитектуры модели или отсутствия нормализации данных.

2. Связь между производной сигмоиды и градиентом

На графике, который вы представили, вероятно, изображены две кривые: одна – производная сигмоидной функции, другая – кривая градиентного спуска. Эти две концепции действительно связаны.

Градиенты в процессе обучения: В ходе обучения мы стремимся минимизировать функцию потерь. Если мы находимся далеко от минимума, весовые обновления будут более значительными. Но когда мы приближаемся к минимуму (что соответствует тем значениям (z), где производная сигмоиды близка к нулю), обновления становятся столь же маленькими, что мы можем "зациклиться" вокруг минимума, что и объясняет поведение градиентного спуска в этой области.
Глобальные минимумы: При больших и малых значениях продукции (z) (где производная сигмоиды приближается к нулю) сеть может испытывать проблемы с обучением, так как изменения становятся незначительными. Это не обязательно совпадает с глобальными минимумами на графике градиентного спуска, но указывает на сложность нахождения этих минимумов из-за малых градиентов в этих областях.

Заключение

Использование сигмоидной функции активации требует внимательного подхода к нормализации данных и настройке весов для предотвращения эффекта исчезающего градиента. Ваша интуиция по поводу влияния структуры данных и архитектуры сети на значения (z) была верной и подчеркивает важность предварительной обработки и адаптации алгоритмов в зависимости от характеристики данных.

Эти аспекты, а также правильные методы, такие как пакетная нормализация, могут значительно улучшить обучение нейронной сети и ускорить процесс сходимости.