Вопрос или проблема
Когда я запускаю свои три разные нейронные сети, я получаю следующие кривые обучения, используя MSE.
Я считаю, что моя базовая модель в порядке и не переобучается и не недообучается. Более того, я считаю, что моя маленькая модель недообучается из-за высокой ошибки обучения и высокой ошибки валидации. Однако я не уверен относительно большой модели. Вычисляя квадратный корень из MSE, RMSE как для обучающего набора, так и для валидационного набора в большой модели ниже, чем в базовой модели. Тем не менее, на картинке и исходя из того, что я узнал на занятиях, она все еще недообучается?
Это верно? Я просто не понимаю, как модель показывает хорошие результаты, но не учится, глядя на картинку.
Спасибо заранее.
Возможно, ваш набор данных не сложен, так как ваша базовая модель сходится в первые несколько эпох, а ваша большая модель (возможно, из-за количества параметров и нелинейности, которую она может уловить) показывает хорошие результаты с самого начала.
Обратите внимание, что маленькая модель начинает с более высокой потери, чем базовая модель, и даже после 15 эпох не достигает такой же потери, как базовая модель на 5 эпохе. Я думаю, вам стоит проверить архитектуру и инициализации маленькой модели.
В зависимости от величины вашей целевой переменной можно объяснить разрыв между ошибкой обучения и ошибкой валидации.
Попробуйте использовать кросс-валидацию с тестовыми данными, чтобы убедиться, что ваша модель работает хорошо. Если нет, попробуйте собрать больше данных. Если это невозможно, попробуйте использовать аугментацию данных.
Основываясь на показанных кривых обучения, лучшая модель – это базовая модель, так как как ошибка обучения, так и ошибка валидации *уменьшаются по мере увеличения эпох.
Теперь обе ваши маленькая и большая модели недообучаются. Это очевидно из того факта, что обе кривые не сходятся, как это происходит в базовой модели. Я бы сказал, что с нейронной сетью, которую вы построили, что-то не так. Вероятно, вам не хватает чего-то жизненно важного в вашей структуре (возможно, кросс-валидации).
В принципе, я согласен с тем, что маленькая модель
и большая модель
недообучаются. Было бы полезно, если бы вы предоставили больше информации о данных (число образцов, диапазон целевых переменных, число предикторов, число целевых переменных, распределение целевых переменных и распределение предикторов), чтобы полностью проанализировать предоставленные вами графики.
Не легко сравнивать графики, которые вы показали:
-
Во-первых, диапазон $y$ не одинаков во всех трех графиках. На первом графике диапазон $y$ достигает 4.000.000, а на остальных двух он составляет от 125.000 до 2.500, что затрудняет оценку, где именно
базовая модель
сходится. -
Во-вторых, вы предоставляете только один запуск. Может быть, этот запуск был особенно (не)удачным. Анализ был бы более надежным, если бы он содержал, например, три запущенных графика с
средним
истандартным отклонением
для каждой модели. -
Наконец, первая модель обучается на $20$ эпох, в то время как остальные две обучаются на $15$.
Также, в чем разница между потерей
и среднеквадратичной ошибкой
? Они кажутся идентичными.
Ответ или решение
Интерпретация кривых обучения нейронных сетей является важной задачей для оценки производительности моделей машинного обучения. На основе представленных вами данных, давайте проанализируем результаты и попробуем выяснить, что происходит с вашими моделями.
Основные понятия
Кривые обучения представляют собой графики, которые показывают, как ошибка (в данном случае, средняя квадратичная ошибка, MSE) меняется с увеличением числа эпох. Эти кривые позволяют судить о том, как хорошо модель обучается, и важно понимать, что они могут указывать на переобучение (overfitting), недообучение (underfitting) и хорошо настроенные модели.
Анализ трех моделей
-
Модель "Base" (основная):
- Кривые обучения показывают, что и ошибка обучения, и ошибка валидации уменьшаются по мере увеличения числа эпох. Это самый положительный сценарий, поскольку модель, похоже, находит правильные зависимости в данных.
- Однако, стоит отмечать, что уровень ошибок валидации не должен быть слишком высоким. Если ошибка валидации зашкаливает или находится на высоком уровне, это может указывать на то, что модель учится, но не обобщается правильно.
-
Модель "Small" (малая):
- Высокие значения ошибки как на обучающей, так и на валидационной выборках указывают на то, что модель, вероятно, недообучена. Этот вывод подкрепляется тем, что кривая не снижается, и модель не достигает уровня ошибки основной модели.
- Рекомендуется проверить архитектуру данной модели. Возможно, она недостаточно сложна для захвата необходимых закономерностей в данных.
-
Модель "Big" (большая):
- Несмотря на то, что RMSE (корень из MSE) ниже, чем у основной модели, это не обязательно указывает на хорошую производительность. Если кривые обучения не показывают снижения, то модель все еще может быть недообучена.
- Данная модель, возможно, обладает высокой емкостью, что позволяет ей решать сложные задачи, но в данной конкретной ситуации она не учится эффективно.
Другие аспекты для рассмотрения
-
Структура данных: Ваша модель может быть подвержена подгонке, если данные не являются достаточно сложными для ваших моделей. Приведение данных в порядок, увеличение их объема, или использование методов увеличения данных могут помочь улучшить ситуацию.
-
Число эпох: Вы упомянули, что для первой модели использовалось 20 эпох, а для других – 15. Это несоответствие может влиять на интерпретацию результатов. Рекомендуется использовать одинаковое число эпох для ускорения сравнения.
-
Надежность эксперимента: Для более надежной оценке результатов рекомендуется проводить несколько экспериментов с разными инициализациями и усреднять результаты для уменьшения влияния случайности.
-
Разница между Loss и MSE: Обычно, функции потерь (loss) и средняя квадратичная ошибка (MSE) являются эквивалентными, но может быть путаница, так как термин "loss" может использоваться в более общем контексте для обозначения любой функции, оценивающей качество модели.
Заключение
Учитывая вышеизложенное, ваш анализ имеет смысл, и подтверждает предположение о недообучении моделей "Small" и "Big". Модель "Base" демонстрирует лучшую производительность, но для полного понимания ситуации необходимо больше данных о вашей выборке, а также учесть разницу в диапазонах значений MSE для различных моделей. Рекомендую также рассмотреть возможность проведения кросс-валидации для более надежной оценки.