Обратное распространение с функцией активации шага или порога

Содержание

Вопрос или проблема
Ответ или решение
Обратное распространение с использованием пороговой функции активации
Понимание шаговой функции активации
Дифференцируемость функций активации
Обратное распространение ошибок
Почему нет реализованных методов
Заключение

Вопрос или проблема

Я понимаю, что градиентный спуск является локальным и работает только с входными данными нейрона, тем, что он выводит, и тем, что он должен выводить. Во всем, что я видел, градиентный спуск требует, чтобы функция активации была дифференцируемой, поэтому пороговую функцию использовать нельзя.

Тем не менее, биологические нейроны либо возбуждаются, либо нет. Вход нейрона, по моему пониманию, эквивалентен потенциальной разности мембраны. Когда он превышает определенный порог, нейрон возбуждается (один раз или несколько раз), и вход сбрасывается. Учитывая это, шаговая функция, похоже, достаточна для воспроизведения поведения биологических нейронов.

Я думаю о обычных весах (целых или даже вещественных) в сочетании с шаговой функцией, обученных с помощью следующей формы обратного распространения:

если посмотреть на один нейрон и его соединения и выполнить обратное распространение, он выдает 1 (он сработал), когда должен был выдать 0. У нейрона порог равен 5, а его суммарный вход в итоге превышает 5.
для его обучения вычитаем из весов так, чтобы суммарный вход уменьшался на произвольную скорость обучения, таким образом порог не будет превышен или будет ближе к тому, чтобы не быть превышенным. Например, суммарный вход был 5.5, так что “ошибка” равна 0.5. Умножаем эту “ошибку” на скорость обучения 0.1, и результат равен 0.05. Это означает, что веса нужно скорректировать на 5% (умножив на 0.95). Веса изменяются только немного для каждого примера обучения.

По моему пониманию, это похоже на обратное распространение с градиентным спуском, но применяется к шаговым функциям активации, и это работает даже если они не дифференцируемы.

Мой вопрос: где реализации этого очень простого метода обучения? Почему он не будет работать?

Нет общих реализаций предложенного метода, потому что не так много можно выиграть, добавляя шаговую функцию в нейронную сеть. Шаговая функция увеличивает сложность, не увеличивая значительно обучающую способность нейронных сетей по сравнению с нелинейной функцией активации.

Цель нейронных сетей не в том, чтобы моделировать биологические нейроны. Цель моделей спайковых нейронов — моделировать биологические нейроны. Модели спайковых нейронов часто используют функции, которые вы описываете.

Ответ или решение

Обратное распространение с использованием пороговой функции активации

Вопрос применения пороговой функции активации, такой как шаговая функция, в нейронных сетях и методах обратного распространения обучения является довольно актуальным. Давайте рассмотрим несколько ключевых аспектов данной темы.

Понимание шаговой функции активации

Шаговая функция активации, как вы правильно отметили, имитирует поведение биологического нейрона, который либо "срабатывает", либо "не срабатывает", в зависимости от того, превышает ли суммарный ввод определённый порог. Однако, несмотря на свою простоту и биологическую схожесть, использование пороговых функций в нейронных сетях связано с определёнными сложностями.

Дифференцируемость функций активации

Одна из главных причин, по которой шаговые функции не получили широкого распространения в современных нейронных сетях, заключается в том, что градиентный спуск, который является основным методом оптимизации, требует дифференцируемости функции активации. Пороговая функция, будучи неразличимой в большинстве точек, затрудняет процесс вычисления градиентов, необходимых для оптимизации весов сети. Из-за этого подход с пороговой функцией в значительной степени теряет преимущества методов обратного распространения, основанных на дифференцируемых функциях, таких как сигмоидная или ReLU (Rectified Linear Unit).

Обратное распространение ошибок

Ваш подход к обучению с использованием пороговой функции активации является вариацией метода, но он не учитывает полное множество преимуществ, которые предоставляет распространение ошибки по сети при помощи дифференцируемых функций. К примеру, при низких значениях ошибок ваши корректировки весов будут чрезмерно малозначительными, что может привести к медленному обучению или даже к его остановке.

Почему нет реализованных методов

Отсутствие общепринятых реализаций пороговых функций в нейронных сетях связано с несколькими факторами:

Сложность обучения: Процесс обучения становится значительно более сложным из-за необходимости корректировки весов вручную и использования фиксированных шагов.
Сравнительно низкая выразительность: Шаговые функции активации оказываются менее выразительными по сравнению с гладкими функциями, что может ограничивать возможности модели в изучении сложных зависимостей.
Альтернативные модели: Вместо простых нейронных моделей, акцент в исследовании и разработках сместился в сторону более сложных моделей, таких как спайковые нейроны, которые пытаются учитывать временные динамики и другие биологические аспекты.

Заключение

Хотя ваш интерес к использованию пороговой функции активации для нейронных сетей имеет биологическую основу, он сталкивается с существенными затруднениями в области функциональности, эффективности и выразительности. На деле, современные нейронные сети, основанные на дифференцируемых функциях активации, обеспечивают гораздо большую гибкость и мощность в задачах обучения и воспроизведения сложных зависимостей.

В конечном счете, если вас интересуют биологически вдохновленные модели, можно рассмотреть более специализированные методы, такие как спайковые нейронные сети, которые разработаны именно для учета этих аспектов.