Стандартизация ввода для глубокого обучения - правильное масштабирование

Содержание

Вопрос или проблема
Ответ или решение
Почему стандартное отклонение должно быть 1?
Что если использовать другие масштабы, например, 10 или 100?
Практический опыт
Заключение

Вопрос или проблема

Как правило, входные данные для нейронной сети (НС) преобразуются так, чтобы иметь нулевое среднее значение и стандартное отклонение 1.

Мне интересно, почему стандартное отклонение должно быть 1? Как насчет других масштабов? 10? 100? Разве не имеет смысла предоставить НС входные данные более широкого диапазона, чтобы НС могла легче отделять разные кластеры и более просто и устойчиво справляться с функцией потерь для каждого кластера? Пытался ли кто-то здесь использовать разные масштабы и может поделиться своим опытом?

Если ответ зависит от функции активации – в моем случае я использую Relu.

Большое спасибо!

Во-первых, важно иметь в виду, что нейронные сети (как и многие другие алгоритмы машинного обучения) работают в области действительных чисел, т.е. они предполагают определенные свойства этого пространства. Некоторые свойства, которые имеют значение в этом контексте:

аддитивная идентичность равна 0, а мультипликативная идентичность равна 1
существует присуще (интуитивно для нас) тотальный порядок и стандартное расстояние

Краткая заметка о последствиях этого: если кто-то планирует использовать нейронные сети для категориальных или порядковых данных, необходимо учитывать, какое отображение в область действительных чисел является разумным и насколько стандартное отображение (например, в натуральные числа или через сходство строк) имеет смысл в контексте задачи.

С теоретической точки зрения масштабирование – это гомогенная трансформация, т.е. она сохраняет свойства пространства до скаляра, так что не имеет значения, что вы выбираете. Поскольку 1 является мультипликативной идентичностью (ничего не меняется, когда умножаете на один), имеет смысл использовать ее как масштаб, поскольку это упрощает вычисления.

Еще одна заметка: это действительно актуально также в более общем контексте. Например, машинное представление чисел с плавающей точкой осуществляется через так называемое научное обозначение. С этой точки зрения, 0.01, 0.1, 1, 10, 100,… все имеют одно и то же значащее число и только экспонент меняется. Таким образом, разница между примерами, которые вы упоминаете, на самом деле довольно мала.

Ответ или решение

Стандартизация входных данных для нейронных сетей — важный шаг, который улучшает процесс обучения и производительность модели. Обычно входные данные нормализуют так, чтобы они имели среднее 0 и стандартное отклонение 1. Вопрос, который вы подняли, касается выбора стандартного отклонения (в данном случае 1) и того, что может произойти, если использовать другие значения, такие как 10 или 100.

Почему стандартное отклонение должно быть 1?

Существует несколько причин, по которым стандартное отклонение 1 является предпочтительным выбором:

Упрощение вычислений: Нормализация с использованием стандартного отклонения 1 упрощает математические операции, которые выполняются в процессе обучения нейронной сети. Это позволяет избежать необходимости учитывать масштаб при вычислении градиентов и других параметров.
Свойства пространства: Нейронные сети работают в пространстве действительных чисел, где 1 является мультипликативной единицей. Это значит, что, если мы умножим все входы на 1, они не изменятся. Выбор стандарта в 1 позволяет сохранить свойства пространства, упрощая интерпретацию результатов.
Активационные функции: В случае использования активационной функции ReLU (Rectified Linear Unit) важно, чтобы данные не уходили слишком далеко в отрицательную область. Применение стандартного отклонения 1 помогает избежать этого эффекта, обеспечивая, чтобы большая часть входных данных находилась в положительной области, где ReLU активируется.

Что если использовать другие масштабы, например, 10 или 100?

Хотя технически можете использовать любое значение, такие масштабирования могут привести к нескольким проблемам:

Проблемы с градиентами: Большие значения могут привести к численным нестабильностям во время обратного распространения ошибки. Это может вызвать проблемы с сходимостью алгоритма обучения, поскольку большие градиенты могут прыгать и мешать модели адекватно учиться.
Изменение динамики обучения: При использовании значений, отличных от 1, можно столкнуться с проблемами при настройке скорости обучения. Модель может либо не обучаться правильно, либо нуждаться в более тщательной настройке параметров.

Практический опыт

Многие исследователи и практики в области глубокого обучения подтверждают, что использование стандарта для нормализации данных с нулевым средним и стандартным отклонением 1 приводит к наилучшим результатам. При экспериментах с другими значениями (например, 10 или 100), многие обнаружили, что это не дает значительных улучшений, и может даже ухудшить производительность модели.

Заключение

Таким образом, выбор нормализации данных с нулевым средним и стандартным отклонением 1 на практике ведет к лучшей производительности нейронных сетей, минимизирует численные проблемы и упрощает процесс настройки гиперпараметров. Если вы решите экспериментировать с другими значениями, потребуется внимательно следить за поведением модели и производить соответствующие корректировки в гиперпараметрах обучения.

Стандартизация ввода для глубокого обучения – правильное масштабирование