Интерпретация кривой валидации

Содержание

Вопрос или проблема
Ответ или решение
Интерпретация валидационной кривой в контексте задачи прогнозирования дефолтов по займам
Понимание валидационной кривой
Переобучение и недообучение
Визуализация областей переобучения и недообучения
Рекомендации по улучшению модели

Вопрос или проблема

Я читал о функции validation_curve из scikit learn. Когда я запускаю эту функцию, она занимает слишком много времени. Поэтому я вместо этого строю графики результатов из grid search, что, кажется, намного быстрее. Однако, когда я строю график с помощью кода с: https://matthewbilyeu.com/blog/2019-02-05/validation-curve-plot-from-gridsearchcv-results.

Я получаю:

Почему линии так близко друг к другу? Разве я не должен получить кривую вместо этого? Более общим вопросом является, как мне определить, переобучается ли моя модель или недообучается? Как я могу изобразить области переобучения/недообучения на моем графике.

редактировать: я пытаюсь предсказать, будет ли клиент по кредиту по-прежнему в убытке или нет, так что 1 за да, 0 за нет. Данные являются финансовыми. Также данные, которые я использовал, содержат около 100k образцов.

Вы можете понять, переобучается ли ваша модель или недообучается, по разнице в графиках ваших обучающих и валидационных оценок. Если ваша обучающая оценка (производительность, а не потери) низка, и валидационная оценка также низка, тогда ваша модель недообучается. С другой стороны, если ваша модель переобучается, у вас будет высокая точность обучения, но ваша валидационная оценка будет низкой, и графики обучения и валидации будут далеки друг от друга. Идеальная модель просто имеет высокую обучающую оценку с валидационной кривой, как можно ближе, и два графика будут очень близкими, как график, который вы предоставили.

Похоже, в вашем наборе данных очень мало случаев невыполнения кредитов, поэтому xgboost учится предсказывать 0 для всех входных данных независимо от выбранных гиперпараметров. Попробуйте отобрать данные так, чтобы классы были более сбалансированы (например, >10% ваших точек данных являются невыполнениями) и посмотрите, что произойдет.

Другие варианты работы с сильно несбалансированными классами можно найти здесь: https://www.analyticsvidhya.com/blog/2017/03/imbalanced-data-classification/

Ответ или решение

Интерпретация валидационной кривой в контексте задачи прогнозирования дефолтов по займам

При использовании функции validation_curve из библиотеки scikit-learn для анализа модели вы можете столкнуться с проблемами в интерпретации результатов, особенно когда данные имеют несбалансированное распределение классов, как в вашем случае с предсказанием дефолтов по займам. Рассмотрим ключевые аспекты, которые помогут вам лучше понять валидационные кривые и связанные с ними проблемы.

Понимание валидационной кривой

Валидационная кривая показывает, как изменяется производительность модели (например, точность, F1-мера и т.д.) на обучающей и валидационной выборках в зависимости от одного из гиперпараметров модели. Если вы наблюдаете, что линии на графике очень близки друг к другу и не образуют характерной кривой, это может говорить о ряде проблем:

Недостаток данных: Если ваше обучение проходит на относительно небольшом объеме данных, это может не давать модели достаточной информации для выявления закономерностей, что приведет к схожести показателей на обучающей и валидационной выборках.
Проблемы с моделью: Как упоминалось в обсуждении, если модель предсказывает один класс (например, отсутствие дефолта) более чем на 90% случаев, это может указывать на то, что модель не способна эффективно различать классы, что может быть следствием несбалансированности классов. Вам стоит рассмотреть методы обработки несбалансированных данных, такие как oversampling для меньшего класса или использование алгоритмов, специфичных для работы с несбалансированными данными.

Переобучение и недообучение

Чтобы определить, находится ли ваша модель в состоянии переобучения или недообучения, необходимо внимательно проанализировать различия между графиками точности обучения и валидации:

Недообучение: Проявляется, когда обе линии (обучения и валидации) имеют низкие значения. Это означает, что модель не может захватить основные закономерности в данных.
Переобучение: Если линия обучающей выборки значительно выше линии валидационной, это свидетельствует о том, что модель изучила специфические особенности обучающих данных, что негативно сказалось на её способности обобщать на новых данных.

Визуализация областей переобучения и недообучения

Чтобы отобразить области, отвечающие за переобучение и недообучение на графике, вы можете добавить горизонтальные линии, обозначающие пороговые значения для точности, которые определяют эти состояния. В диапазоне от 0 до 1, например, вы можете выбрать 0.75 как границу для хорошей производительности. Таким образом, когда обе линии находятся ниже этого значения, это указывает на недообучение, а когда линия обучения значительно выше линии валидации, это указывает на переобучение.