Методы решения проблемы с несбалансированными данными

Вопрос или проблема

Я пытаюсь решить проблему с несбалансированным набором данных. У меня есть два класса, один для пациентов с риском (1), другой для пациентов без риска (0). У меня больше пациентов без риска.

Для анализа я использовал такие методы, как:

RandomOverSampler
SMOTE
ADASYN
Borderline-SMOTE
RandomUnderSampler
TomekLinks
NearMiss
SMOTEENN
SMOTETomek

Кроме ресемплинга и подсемплинга, я также хотел бы попробовать другие техники для решения проблемы с несбалансированным набором данных.

Какие другие техники я могу попробовать? Например, ансамблевые методы, взвешивание классов и что-то еще?

Я согласен с @picky_porpoise. Вам стоит задуматься, является ли несбалансированные данные действительно проблемой. Потенциальная проблема может заключаться в том, что вас беспокоят метрики, такие как точность, которая является очень вводящей в заблуждение метрикой для данных с значительным дисбалансом. Например, если есть 100 объектов, и 1 объект имеет индикатор события, ваша модель будет точной на 99%. Рассмотрите f1, точность и/или полноту.

Кроме того, поскольку вы собираетесь создать модель прогнозирования рисков, вам нужно обратить внимание на калибровку модели. Использование методов выборки, которые вы упоминаете, приведет к некорректной калибровке вашей модели. В настоящее время существует множество статей, обсуждающих это, см. здесь и здесь. Вместо этого рассмотрите возможность регулировки порогового значения решения модели в зависимости от проблемы, которую вы пытаетесь решить. Это, вероятно, потребует консультаций с экспертами в предметной области / заинтересованными сторонами.

Кроме того, вы можете рассмотреть другие метрики, такие как чистая выгода, заимствованная из науки о принятии решений и касающаяся максимизации выгод по сравнению с затратами в клинически связанных моделях.

Ответ или решение

Решение проблемы с несбалансированным набором данных требует многогранного подхода, поскольку простая репрезентация классов не всегда является достаточной для достижения высококачественной модели. Вот несколько дополнительных техник, которые можно рассмотреть наряду с уже упомянутыми вами методами:

Изменение весов классов:
- Многие алгоритмы машинного обучения позволяют настраивать веса классов. Увеличение веса класса с риском (1) при обучении модели может помочь уменьшить влияние класса без риска (0) и помочь модели лучше распознавать менее представленный класс.
Ансамблевые методы:
- Использование ансамблевых алгоритмов, таких как Random Forest и Gradient Boosting, может быть полезным, так как они могут эффективно справляться с несбалансированными данными. Эти методы объединяют несколько моделей для улучшения качества предсказаний.
- Специальные техники ансамблирования, такие как Balanced Random Forest и Adaptive Boosting (AdaBoost), могут быть настроены для работы с несбалансированными данными.
Использование алгоритмов, устойчивых к несбалансированным данным:
- Рассмотрите возможность использования алгоритмов, которые изначально предназначены для работы с несбалансированными наборами данных. Это могут быть специфические версии SVM, деревья решений, которые уклоняются от переобучения на более распространенные классы, а также нейронные сети с измененными архитектурами.
Обход несбалансированности через кросс-валидацию:
- При разделении данных на обучающую и тестовую выборки используйте стратифицированный подход к кросс-валидации, чтобы убедиться, что каждый набор данных будет содержать пропорциональное количество примеров из каждой категории.
Калибровка модели:
- Обратите внимание на калибровку вероятностей после обучения модели. Методы, такие как Platt Scaling или Isotonic Regression, могут быть использованы для корректировки предсказанных вероятностей так, чтобы они более точно отражали истинные вероятности классов.
Адаптация порога принятия решения:
- Как уже было упомянуто, изменение порога принятия решения может значительно повлиять на показатели работы модели. Вам может потребоваться совместно работать с экспертами в области медицины, чтобы определить наиболее подходящие пороги, основываясь на рисках и выгодах.
Использование метрик оценки:
- Вместо стандартной точности, сосредоточьтесь на других метриках, таких как F1-score, precision, recall и AUC-ROC, которые дают более точное представление о производительности модели в условиях несбалансированных данных.
Генерация искусственных данных:
- Также можно исследовать методы генерации данных, такие как использование генеративных противостоящих сетей (GAN) для создания новых примеров класса с риском, что может помочь в расширении обучающего набора данных.
Консультация со специалистами:
- Важно провести консультации с врачами и экспертами в области медицины, чтобы получить подробное понимание контекста клинических данных и потребностей в моделях.

Обратите внимание, что каждая из этих техник может быть применима в зависимости от вашей конкретной задачи и характеристик данных. Комбинирование нескольких методов может значительно повысить качество вашей модели для решения проблемы несбалансированности в наборе данных.