Странное поведение обучения CNN

Вопрос или проблема

Я реализовал классическую полносвязную нейронную сеть (самостоятельно), и она работает нормально. Однако я добавил сверточные слои, и теперь поведение обучения очень странное.

На простой задаче (классификация нулей и крестиков на сетке 28×28) в течение примерно 20 эпох ошибка не изменяется (уменьшается очень маленькими шагами, примерно на 10^(-4) за эпоху), а затем, через 2 эпохи, ошибка падает с примерно 1.3 до 0.01.

На наборе данных MNIST в начале ошибка составляет примерно 3.2 для каждой цифры. После некоторого обучения сверточная нейросеть получает примерно 0.2 ошибки на некоторых цифрах, а на других ошибка увеличивается до 6. Похоже, что я что-то неправильно закодировал, но это работает на первом примере.

Архитектура состоит из одного сверточного слоя с функцией активации ReLU, одного полностью связанного слоя с ReLU и выходного слоя с softmax. Функция потерь — кросс-энтропия.

Ответ или решение

Теория

При проектировании и обучении сверточной нейронной сети (CNN) могут возникать различные странности в поведении обучения, как в вашем случае. Эти проблемы могут возникать из-за нескольких факторов, таких как архитектура сети, параметры обучения, неправильная инициализация весов или ошибки в коде. Рассмотрим некоторые из этих аспектов более подробно.

Инициализация весов: Неправильное начальное распределение весов может привести к тому, что нейронная сеть будет обучаться очень медленно или не будет обучаться вообще. Инициализация весов в сверточной сети особенно важна, поскольку она оказывает непосредственное влияние на распространение градиентов по всей сети.
Стохастический градиентный спуск (SGD) и его варианты: Если используемый алгоритм оптимизации не подходит для данной архитектуры или задачи, он может медленно сходиться. Это касается, в первую очередь, темпов обучения и наличия моментов инерции, таких как Adam, RMSprop и другие.
Проблема затухающих градиентов: В классических полносвязных слоях и даже в сверточных слоях с использованием ReLU-активации может возникать проблема затухания или взрыва градиентов, что усложняет процесс обучения.
Дисбаланс данных: Если данные имеют сильный дисбаланс, это может привести к тому, что модель обучается лучше на одних классах, чем на других, что вызывает увеличение ошибки для определенных элементов класса, как это было отмечено для MNIST.
Проблемы в коде: Даже небольшой баг в коде может привести к непредсказуемому поведению модели. Возможные ошибки варьируются от неправильной обработки входных данных до неправильного вычисления градиентов.

Пример

Рассмотрим типичный пример. Представьте, что вы находитесь на этапе обучения сверточной нейронной сети, состоящей из одного сверточного слоя с функцией активации ReLU, одного полносвязного слоя также с ReLU и выходного слоя с softmax. Вы используете функцию потерь кросс-энтропии для бинарной классификации изображений размером 28×28 пикселей.

На обучающем наборе, где требуется различать нули от крестиков, модель поначалу демонстрирует крайне медленное улучшение. Ошибка снижается на незначительные величины на протяжении первых 20 эпох, после чего снижается резко за 2 эпохи. На более сложном наборе данных, таком как MNIST, модель показывает странное поведение: ошибка на некоторых классах уменьшается, а на других существенно возрастает.

Применение

Чтобы справиться с этими проблемами, можно использовать несколько подходов:

Оптимизация инициализации весов: Попробуйте использовать более надежные методы инициализации, такие как He нормализация или Xavier инициализация, которые лучше подходят для функций активации типа ReLU и могут обеспечить более стабильное обучение.
Адаптация алгоритмов оптимизации: Изменение алгоритма оптимизации может значительно повлиять на эффективность обучения. Попробуйте использовать Adam или RMSprop, которые автоматизировано подстраивают темпы обучения и помогают избегать нестабильностей в градиентных шагах.
Изменение архитектуры сети: Добавление механизма нормализации, такого как Batch Normalization, может помочь в управлении распространением градиентов и стабилизации обучения.
Проверка обработки данных: Убедитесь в правильной предобработке и нормализации входных данных. Некорректная предобработка может увеличить сложность обучения модели.
Диагностика кода: Проверьте все потенциально проблемные места в коде, от проверки знаков суммирования в функции потерь до правильности вычисления и использования градиентов.
Анализ результатов: Разберите результаты по классам и сравните поведение модели на различиях. Выявление ошибок на разных наборах поможет в диагностике.

Используя приведенные подходы и советы, вы сможете диагностировать и исправить необъяснимое учебное поведение вашей сети, улучшив стабильность и эффективность обучения.