Должен ли масштаб выходных данных соответствовать выходу функции активации?

Содержание

Вопрос или проблема
Ответ или решение
Масштабирование выходных данных
Активации для скрытых слоёв
Рекомендации при выборе функции активации
Заключение

Вопрос или проблема

Я создаю LSTM с keras, который имеет параметр activation в слое. Я читал, что масштабирование выходных данных должно соответствовать выходным значениям функции активации.

Например, функция активации tanh выдает значения в диапазоне от -1 до 1, следовательно, выходные обучающие (и тестовые) данные должны быть масштабированы до значений от -1 до 1. Таким образом, если функция активации – это sigmoid, выходные данные должны быть масштабированы до значений от 0 до 1.

Верно ли это для всех функций активации? Если я использую ReLu как активацию в своих слоях, до каких значений следует перекалибровать выходные данные?

То, что вы прочитали, верно для нейронов выходных слоев, а не для скрытых слоев!

Таким образом, действительно, если вы используете tanh в выходных слоях, то вам нужно, чтобы метки данных находились в пределах [-1, 1], в то время как для sigmoid – между [0, 1].

Что касается вашего беспокойства относительно relu, используйте его в выходных слоях, если вы знаете, что диапазон меток данных положительный. Если вы используете relu в скрытых слоях, то масштабирование не зависит от relu, а зависит от типа функции активации, используемой в выходных слоях.

Ответ или решение

При разработке модели LSTM с использованием Keras, важно учитывать, какое именно активационное значение будет использоваться на выходном слое. Действительно, масштабирование выходных данных должно соответствовать диапазону значений, которые выдаёт функция активации на этом слое. Давайте подробнее рассмотрим каждый аспект этого вопроса.

Масштабирование выходных данных

Типы активационных функций:
- tanh (гиперболический тангенс): Эта функция выдает значения в диапазоне от -1 до 1. Поэтому, если ваш выходной слой использует tanh, вы должны убедиться, что ваши целевые данные (выходные метки) масштабированы в соответствии с этим диапазоном. Например, если ваши данные варьируются от 0 до 100, вы должны нормализовать их до диапазона [-1, 1].
- sigmoid (Сигмоидная функция): Эта функция возвращает значения в диапазоне от 0 до 1. Если выходной слой использует функцию активации sigmoid, то целевые данные должны быть в том же диапазоне. Это особенно актуально, когда вы работаете с бинарной классификацией, где метки целевых классов имеют значения 0 и 1.
Проблема с ReLU (Rectified Linear Unit):
- ReLU: Эта функция возвращает значения от 0 до ∞. Если вы решите использовать ReLU в выходном слое, это будет целесообразно только в том случае, если ваши выходные данные также имеют положительные значения. Например, для задачи регрессии с положительными целевыми переменными вы можете использовать ReLU.

Активации для скрытых слоёв

Важно отметить, что правила масштабирования выходных данных применимы только к выходным слоям и не касаются скрытых слоев. Скрытые слои часто используют различные функции активации, такие как ReLU, tanh или sigmoid, и их результат не требует специального масштабирования целевых данных. Вместо этого важно, чтобы выходной слой был совместим с целевыми значениями.

Заключение

В заключение, масштабирование выходных данных должно соответствовать диапазону значений, выданных функцией активации в выходном слое вашей LSTM модели. В то время как для активации tanh и sigmoid требуется соответствующее масштабирование целевых данных, ReLU следует использовать с осторожностью, предпочтительно в задачах, требующих положительных выходов. Следуя этим рекомендациям, вы сможете добиться лучшей производительности вашей модели и снизить вероятность ошибок при обучении и тестировании.