Как правильно использовать параметр scale_pos_weight в XGBoost MultiOutput Classifier для устранения значительного дисбаланса классов?

Содержание

Вопрос или проблема
Ответ или решение
Теория использования scale_pos_weight
Пример использования scale_pos_weight
Применение в вашей задаче
Заключение

Вопрос или проблема

Я работаю над предсказанием двух генетических мутаций одновременно с использованием XGBoost Multioutput Classifier. Мой набор данных сильно несбалансирован, особенно в случаях, когда обе генетические мутации положительные, что приводит к плохой предсказательной производительности — модель в основном правильно предсказывает истинные отрицания.

Вот краткое описание моего набора данных и проблемы:

Набор данных состоит примерно из 800 записей с около 30 предиктивными признаками. Целевые переменные (бинарные, многозначные) — это две генетические мутации.
Имеется сильный дисбаланс, особенно в случаях, когда обе мутации возникают одновременно.
Я уже попробовал несколько стратегий увеличения данных, включая SMOTE и SMOTEEN (которые дали наилучшие результаты), а также уменьшение выборки.
Я уже выполнил отбор признаков.

В настоящее время я выполняю байесовскую оптимизацию в пределах этих параметров:

param_bounds = {
    'max_depth': (3, 6),
    'learning_rate': (0.01, 0.3),
    'n_estimators': (1, 300),
    'gamma': (0, 10),
    'reg_alpha': (1e-3, 100),  # L1 регуляризация
    'reg_lambda': (1e-3, 100),  # L2 регуляризация
    'min_child_weight': (5, 15),
    'subsample': (0.1, 0.6),
    'colsample_bytree': (0.1, 0.6),
    'scale_pos_weight': (1, 10)
}

Мой главный вопрос: существует ли правильный способ эффективно использовать scale_pos_weight в многозначной настройке?

В противном случае, существуют ли альтернативные методы для решения проблемы дисбаланса, которые могли бы улучшить предсказательную производительность моей модели, особенно в корректном выявлении истинных положительных результатов?

Стоит ли мне рассмотреть возможность корректировки диапазонов параметров или существуют другие параметры или методы, которые рекомендуются для более успешного управления таким дисбалансом классов?

Любые советы или рекомендации будут очень признательны!

Ответ или решение

Использование функции scale_pos_weight в XGBoost Multioutput Classifier является эффективным инструментом для решения проблемы серьезного дисбаланса классов, особенно когда дело касается бинарных и многометочных задач классификации, таких как предсказание генетических мутаций. В данном ответе подробно рассматривается, как правильно применять эту настройку, а также предлагаются альтернативные подходы к решению проблемы дисбаланса классов.

Теория использования scale_pos_weight

Функция scale_pos_weight предназначена для изменения важности положительных примеров в вашем датасете. Она особенно полезна в сценариях, когда количество отрицательных примеров значительно превосходит количество положительных, что может привести к тому, что модель будет игнорировать редкие, но важные положительные случаи.

Основная идея использования scale_pos_weight — изменить взвешивание классов таким образом, чтобы позитивные классы оказались "увеличенными" в процессе обучения модели. В многометочном контексте, как в вашем случае, это может означать необходимость настройки этого параметра для каждой из ваших целевых переменных.

Пример использования scale_pos_weight

Предположим, у нас есть две бинарные целевые переменные, каждая из которых представляет наличие или отсутствие специфической генетической мутации. Важно учесть, что scale_pos_weight оказывает влияние на каждую из этих меток отдельно, распределяя вес соответственно:

Исходите из соотношения между отрицательными и положительными классами в каждой из ваших целевых переменных.
Рассчитайте scale_pos_weight как отношение числа отрицательных примеров к числу положительных случаев. Например, если вы имеете 700 отрицательных и 100 положительных примеров для одной мутации, то scale_pos_weight должен быть равен 7 для этой конкретной мутации.

Применение в вашей задаче

Для начала, убедитесь, что вы правильно вычислили параметр scale_pos_weight для каждой мутации. Переменной может потребоваться регулировка, особенно если вашей целью является увеличение частоты правильно предсказанных случаев, когда обе мутации являются положительными, что само по себе может быть уникальным и более сложным случаем.

Кроме того, использование scale_pos_weight может быть эффективно дополнено другими стратегиями:

Сбалансированные метрики: При оценке производительности вашей модели, используйте метрики, чувствительные к дисбалансу классов, такие как F1-мера или трижды проанализированный коэффициент точности-отзыв.
Кросс-валидация с сохранением соотношения классов: Убедитесь, что вы используете подходящую стратегию кросс-валидации, которая сохраняет изначальное соотношение между классами в каждом фолде.
Дальнейшая оптимизация параметров: Помимо scale_pos_weight, важно удостовериться, что другие параметры модели также оптимально настроены, включая такие гиперпараметры как max_depth, min_child_weight, которые могут определять сложность модели и способность к обучению на редких случаях.
Использование порогов предсказания: Регулировка порогов принятия решения также может быть вариантом. Вместо использования единого порога в 0.5, экспериментируйте с другими значениями, чтобы улучшить выявление положительных классов.
Иерархическая классификация: Рассмотрите возможность использования стэкинга моделей, где одна мощная модель идентифицирует экземпляры, а другая модель углубленно обучается на потенциале редкого случая обеих мутаций.

Заключение

Борьба с дисбалансом классов в многометочных задачах — сложная, но решаемая задача. Использование scale_pos_weight дает дополнительный уровень контроля для моделей XGBoost, позволяя компенсировать недостатки в данных. Однако, всегда важно дополнять данную технику другими стратегиями улучшения и проверки. Постоянный анализ метрик и адаптация к изменяющимся условиям данных также должны быть частью любого продвинутого аналитического процесса. Учитывая все вышеупомянутые стратегии, вы сможете значительно улучшить точность вашей модели и ее способность детектировать редкие, но критически важные положительные случаи генетических мутаций.