Одинаковые кривые валидации для обучающего и тестового набора данных

Вопрос или проблема

Я изучаю машинное обучение самостоятельно. Я применяю логистическую регрессию к набору данных о прогнозе погоды с Kaggle Weather_data. Цель состоит в том, чтобы предсказать дождь в соответствии с заданными признаками, и набор данных умеренно несбалансирован, так как имеет 87,4% в классе без дождя и 12,6% в классе с дождем. Я построил график точности для обучения и тестирования, чтобы найти лучшее значение гиперпараметра C.

Сначала я попробовал стандартную (без веса) логистическую регрессию, а затем, из любопытства, я попробовал логистическую регрессию с class_weight= “balanced”. Вот мои графики в обоих случаях.

Стандартная логистическая регрессия
Взвешенная логистическая регрессия

По поводу графика для взвешенной регрессии, где кривые для обучения и тестирования совпадают, у меня есть вопросы:

Что можно заключить из этого графика?
Насколько плохо то, что кривые совпадают?
Есть ли у меня недообучение?

Любые комментарии будут очень ценными. Спасибо.

$C$ — это параметр регуляризации, где меньшие значения, как правило, ограничивают способность модели, а большие значения позволяют модели более свободно следовать и подстраиваться под данные.

График, который вы включили, прослеживает $C$ в пяти порядках величины, начиная с относительно ограниченной модели при $C=0.001$, до модели, которая может справляться с более сложными паттернами.

Кривая обучения демонстрирует три режима на этом интервале.

Недообучение: От $C=0.001$ до $C=1$, точности модели на обучении и валидации имеют следующие свойства: они относительно низкие, увеличиваются с $C$ и следуют друг за другом. Это типичные черты недообученной модели, где она не достигает высоких результатов, делает хороший ввод дополнительной емкости, которую вы ей предоставляете, и не лучше на обучающих данных, чем на невиданных данных для валидации (как будто она достигает потолка в производительности).

Баланс: При $C\approx2$ точность на валидации достигает своего наивысшего значения. До этого момента модель все еще фиксировала полезные паттерны, которые хорошо переводились на невиданные данные. После этой точки она начинает запоминать данные обучения и деградировать в общей производительности.

Переобучение: По мере увеличения $C$ дополнительная емкость используется для чрезмерной адаптации к обучающим данным таким образом, который не полезен для данных, не относящихся к обучению (поэтому оценка на валидации падает). Она хорошо оценивается на обучающих данных и в конечном итоге может достичь 100%, но нас больше заботит общая производительность (оценка на валидации), а не лишь конкретные образцы обучающего набора.

Есть ли у меня недообучение?

График представляет множество моделей, а не только одну — каждое значение $C$ приводит к другой модели (модели с другой емкостью).

В зависимости от того, какой $C$ вы выберете (какую точку на этой кривой), вы получите другую модель вдоль континуума недообучения-переобучения. Если вы используете маленький $C$, у вас будет недообученная модель, тогда как слишком большое значение $C$ даст вам переобученную модель.


Актуальные публикации: положительная и отрицательная ошибка, как они связаны с бэггингом и пастингом.

.

Ответ или решение

Теория (T):

Когда речь идет о валидационных кривых для обучающего и тестового набора данных, важно понимать, что они отражают, насколько хорошо модель обобщает, то есть применима к невидимым данным. В контексте логистической регрессии и ее гиперпараметра регуляризации ( C ), небольшие значения ( C ) ограничивают модель, уменьшая риск переобучения, тогда как большие значения позволяют модели подстраиваться под более сложные паттерны данных, что иногда приводит к переобучению. Регуляризация является ключевой для нахождения баланса между недообучением (когда модель слишком проста) и переобучением (когда модель слишком сложна).

Пример (E):

В вашем случае, вы применили логистическую регрессию с и без взвешенного параметра class_weight ="balanced" в данных прогноза погоды. В ваших кривых точности на графике для взвешенной регрессии замечено, что обучающая и тестовая кривые совпадают. Это говорит о мощных структурных ограничениях, задаваемых моделью.

Применение (A):

Из ваших графиков и наблюдений можно сделать несколько выводов:

  1. Совпадение кривых точности для обучения и теста в зависимости от изменения ( C ) предполагает, что модель обладает хорошей обобщающей способностью для разных ( C ), что встречается реже, но не обязательно плохо. Это может быть признаком того, что модель не несложна (нет действительного переобучения) или нет переоценки класса с небалансированными данными.

  2. В рассматриваемом случае весовое присвоение классов помогает более адекватно обрабатывать дисбаланс, что предполагает, что модель находится около оптимального баланса, где она может извлекать важные паттерны из данных без чрезмерного подстраивания под обучающие образцы.

  3. Подозрение на недообучение может возникнуть, если кривая точности, даже при увеличении ( C ), не показывает повышения, но это не так для вашей взвешенной модели, что предполагает справедливую способность освоения значимых особенностей.

Рекомендация — проанализировать метрики ошибок, такие как ROC-AUC и F1-score, которые могут дать более всестороннее представление об эффективности модели за пределами простой точности, особенно в условиях несбалансированных классов. Кроме того, экспериментирование с другими методологиями балансировки классов, такими как oversampling и undersampling, может предоставить дополнительные преимущества.

Оцените материал
Добавить комментарий

Капча загружается...