Интерпретация предсказанных вероятностей после ребалансировки

Вопрос или проблема

Рассмотрим ситуацию, в которой у меня есть несбалансированный набор данных, где целевой класс принимает значение = 1 в 0,01% наблюдений и значение = 0 в 99,9% наблюдений.

Я обучаю модель классификации, скажем, XGBClassifier и получаю predict_proba, из документации:

вероятность того, что каждый пример X принадлежит данному классу.

Теперь предположим, что я хочу немного восстановить баланс классов, выбрав меньший объем данных, и обучить вторую модель, где мой целевой класс имеет значение = 1 в 10% случаев и значение = 0 в оставшихся 90% наблюдений.

Влияет ли интерпретация предсказанных вероятностей на это восстановление баланса?

Могу ли я все еще сказать, что если наблюдение x_i имеет значение 0.4, то вероятность принадлежности к классу = 1 составляет 40%?

Ответ или решение

Интерпретация предсказанных вероятностей после ребалансировки: детальный анализ

Введение

Проблема работы с несимметричными данными в задачах классификации, особенно когда целевой класс представляет собой малую долю выборки, является одной из ключевых задач в области машинного обучения. В этом контексте важным является понимание того, как манипуляции с выборкой, такие как ребалансировка, влияют на интерпретацию предсказанных вероятностей.

Исходные условия

В первой модели, обученной с портфелем данных, где наблюдения с классом 1 составляют всего 0,01%, вероятность предсказания, полученная с использованием XGBClassifier, интерпретируется как вероятность того, что конкретный пример принадлежит к классу 1. Например, если для наблюдения (x_i) предсказано значение 0,4, это можно интерпретировать как 40% вероятность того, что (x_i) принадлежит к классу 1.

Однако такая интерпретация может быть искажена из-за сильной несбалансированности данных. Поскольку 99,9% наблюдений – это класс 0, обучение модели может привести к тому, что предсказанные вероятности для класса 1 будут завышены из-за загрязнения данных классом 0.

Ребалансировка данных

При проведении ребалансировки данным способом, как уменьшение выборки (undersampling), вы значительно увеличиваете долю положительных наблюдений, где класс 1 составляет 10%. Это изменение в распределении классов может повлиять на способность модели адекватно предсказывать вероятности.

Интерпретация предсказанных вероятностей после ребалансировки

Теперь, если после ребалансировки для наблюдения (x_i) модель по-прежнему предсказывает вероятность 0,4, интересующий вопрос заключается в том, можно ли по-прежнему интерпретировать эту вероятность как 40% вероятность принадлежности к классу 1. Ответ на этот вопрос – "не совсем".

  1. Отношение классов: С учетом того, что ребалансировка увеличила представительство класса 1, вероятности, предсказанные после обучения модели на сбалансированных данных, отражают вероятность принадлежности к классу 1 в значительно другом контексте. Теперь это означает, что из 10% случаев с классом 1, 40% из них рассматриваются как вероятные.

  2. Калибровка вероятностей: В условиях более сбалансированного набора данных важно также учитывать, коррелируют ли предсказанные вероятности с истинными вероятностями классов. В некоторых случаях даже после ребалансировки требуется дополнительная калибровка вероятностей, чтобы обеспечить соответствие между предсказанными и истинными значениями оценки вероятности.

  3. Метрики оценки: Повышается важность таких метрик, как ROC AUC или Precision-Recall AUC, поскольку они могут давать более надёжное представление о производительности модели в контексте изменяющегося баланса классов. Пройдя через эти этапы, вы можете получить ясное понимание о том, как интерпретировать вероятности.

Заключение

Таким образом, ребалансировка данных изменяет не только пропорцию классов, но и смысл интерпретации предсказанных вероятностей. Несмотря на то, что вероятность 0,4 из модели может быть следствием того, что 40% прогнозов принадлежат классу 1, это не всегда верно в контексте предсказаний на более сбалансированных данных. Важно переосмыслить свои подходы к интерпретации и убедиться, что оценки классификатора обоснованы и соответствуют реальной доле классов в данных.

Для достижения наилучших результатов специалисты в области ИТ и машинного обучения должны быть внимательны к таким нюансам в своей работе, чтобы обеспечить корректность и высокий уровень предсказательных характеристик моделей.

Оцените материал
Добавить комментарий

Капча загружается...