Интерпретация метрик оценки для несбалансированного набора данных

Question 1

В настоящее время я занимаюсь задачей классификации для чрезмерно несбалансированного набора данных. Более конкретно, это набор данных для обнаружения мошенничества с примерно 290 тысячами строк данных, с распределением 99,8% для класса 0 (не мошенничество) и 0,17% для класса 1 (мошенничество).

Я использовал XGBoost, Random Forest и LightGBM в качестве своих предсказательных моделей. Я также пытался запускать модели по-разному, подбирая веса классов и выбирая воссозданный набор данных, чтобы привести его к сбалансированной шкале. Кроме того, я использовал f1-меру, ROC-AUC и кривую Precision-Recall в качестве основных метрик, поскольку другие метрики, похоже, не представляют результаты на несбалансированном наборе данных.

Тем не менее, кажется, что я все же чрезмерно подстраиваюсь под свои обучающие данные. Во всех сценариях f1-скор, ROC-AUC и AP из кривой Precision-Recall для моего обучающего набора либо равны 1,0, либо 0,999, в то время как для тестового набора они примерно составляют 0,85.

Я хотел бы спросить, нормальна ли такая ситуация для несбалансированного набора данных, и если нет, есть ли другой способ ее исправить.

Я был бы признателен за любой ответ, большое спасибо всем!

Question 2

Я также сталкиваюсь с аналогичной проблемой в системе обнаружения вторжений. Я нашел следующие рекомендации, которые могут быть полезными:

Сократите количество точек данных с 0, чтобы уменьшить несоответствие в наборе данных – понижающее выборку.
Получите больше данных для меньшего класса (может быть, это невозможно, но это одно из решений)
Используйте матрицу ошибок для анализа производительности модели, а также метрики, которые вы уже используете.
Используйте либо специфичность, либо полноту в качестве метрики для обучения модели.

Question 3

Не редкость сталкиваться с переобучением при работе с несбалансированными наборами данных, но есть несколько техник, которые вы можете попробовать, чтобы смягчить эту проблему. Вот некоторые рекомендации из моего личного опыта:

– Подбор гиперпараметров: выполните систематический поиск лучших гиперпараметров для ваших моделей, таких как сеточный поиск или случайный поиск, чтобы уменьшить переобучение. Вы можете использовать кросс-валидацию (например, k-fold или стратифицированный k-fold), чтобы убедиться, что поиск является надежным.

– Энсамблевые методы: попробуйте использовать техники бэггинга или бустинга, которые могут помочь уменьшить переобучение, комбинируя предсказания нескольких базовых классификаторов. В вашем случае вы уже используете ансамблевые модели (XGBoost, RandomForest и LightGBM). Тем не менее, вы все же можете попробовать создать ансамбль из этих моделей, чтобы увидеть, улучшит ли это производительность.

– Выбор признаков: определите и исключите несущественные или сильно коррелированные признаки, которые могут вызывать переобучение вашей модели. Техники, такие как рекурсивное устранение признаков, регрессия LASSO или корреляционный анализ, могут помочь вам выбрать самые важные признаки.

– Раннее остановка: реализуйте раннюю остановку в процессе обучения, чтобы предотвратить переобучение моделей. Это можно сделать с помощью встроенной функции ранней остановки в XGBoost и LightGBM. Вам нужно будет установить набор данных для валидации и указать метрику для оценки (например, ‘auc’ или ‘f1’).

– Регуляризация: техники регуляризации, такие как L1 или L2 регуляризация, могут помочь предотвратить переобучение, добавляя штраф к функции потерь. Оба XGBoost и LightGBM поддерживают параметры регуляризации, которые можно настроить в процессе обучения.

– Настройка порога решения: вместо того, чтобы использовать стандартный порог 0,5 для классификации экземпляров, вы можете поэкспериментировать с различными порогами решений, чтобы улучшить баланс между точностью и полнотой.

– Обучение с учетом стоимости: назначьте различные затраты на неправильную классификацию для положительного и отрицательного классов во время обучения. Это может помочь вашей модели лучше предсказывать меньший класс. Большинство алгоритмов на основе деревьев, таких как XGBoost, RandomForest и LightGBM, поддерживают этот подход.

– Попробуйте другие техники перераспределения: поэкспериментируйте с различными техниками перераспределения, такими как SMOTE, ADASYN или случайная переобработка меньшего класса, и случайная понижающая выборка большего класса, чтобы сбалансировать набор данных. Обязательно выполняйте эти операции только на обучающем наборе, а не на наборе валидации/тестирования.

Имейте в виду, что может быть трудно достичь идеальной производительности на несбалансированном наборе данных, но цель состоит в том, чтобы минимизировать ошибку обобщения как можно больше. Важно следить за производительностью вашей модели на отдельном наборе валидации в процессе обучения и выбрать модель с наилучшей производительностью на наборе валидации, чтобы избежать переобучения.

Интерпретация метрик оценки для несбалансированного набора данных

Вопрос или проблема

Ответ или решение

Интерпретация метрик оценки для несбалансированных данных

1. Проблема переобучения

2. Значение метрик

3. Методы борьбы с переобучением

4. Использование матрицы конфузии

Заключение