Почему балансировка тестового набора данных улучшает кривую точности-вызова?

Question 1

У меня есть довольно несбалансированный набор данных для оценки кредитного риска (2:98). Обе стоимости достаточно важны: ложный отрицательный означает потерю от дефолта, а ложный положительный — упущенная возможность получения дохода.

Я пробовал обучать некоторые модели на несбалансированном наборе и подходы с пере- и недовыборкой, а также балансировку весов на основе класса. Все эти подходы привели к приемулемому показателю ROCAUC. Однако кривые точность-отзыв выглядят в целом ужасно.

Но если я балансирую тестовый набор, кривая точность-отзыв выглядит гораздо лучше. Почему это происходит? И есть ли какое-то изменение, которое я должен внести, чтобы улучшить точность-отзыв при несбалансированном распределении данных?

Question 2

Это действительно ожидаемое поведение.

(Примечание: не следует балансировать тестовые наборы, поскольку они должны информировать вас о производительности на невидимых данных с оригинальным распределением.
https://stats.stackexchange.com/a/258974/232706
В бинарной классификации, должен ли тестовый набор данных быть сбалансирован?
)

Краткий пример может быть яснее, чем в общем виде. Давайте зафиксируем порог предсказания, и, следовательно, точку на кривой PR. Скажем, в вашем тестовом наборе 100 положительных примеров и 1000 отрицательных, и ваша модель (с заданным порогом) имеет 80% отзыв и 40% точность. Тогда есть 80 истинно положительные, 20 ложно отрицательные, 160 ложно положительных и 840 истинно положительных.
Теперь вы уменьшаете выборку до сбалансированных данных*, выбрасывая случайные 900 отрицательных образцов (резко, но чтобы подчеркнуть суть). Предсказания модели не меняются, просто мы потеряли некоторые образцы. Ожидаем потерю 144 из FP, сохраняя 16; и потерю 756 TN, сохраняя 84. Теперь наш отзыв тот же, но точность прыгает с 40% до 83,3% !
На графике PR мы сильно поднялись по кривой! И, конечно, это происходит в каждой точке, независимо; поэтому AU(PR)C значительно увеличится.

*Подобные вещи должны происходить с другими методами повторной выборки, при условии, что повторная выборка происходит равномерно распределенной по вашим предсказаниям.

Question 3

Попытка ответа

ROC не является хорошим критерием при работе с дисбалансом классов. На Kaggle есть пост о выявлении мошенничества с кредитными картами с экспериментом о дисбалансе классов, возможных способах его устранения, и более подходящих метрических и коде на Python для каждого эксперимента.

Поскольку это действительно длинный пост (на самом деле, это блокнот по дисбалансу классов и ROC), здесь я цитирую вывод автора при сравнении кривых PR и ROC:

Для кривой PR хороший классификатор стремится к верхнему правому углу графика, а для кривой ROC – к верхнему левому.
Хотя кривые PR и ROC используют одни и те же данные, то есть реальные метки классов и прогнозируемую вероятность для меток классов, можно увидеть, что два графика рассказывают очень разные истории, причем некоторые веса, похоже, работают лучше в ROC, чем в PR-кривой.
Хотя синяя линия, w=1, плохо показала обеими графиками, черная линия, w=10000, хорошо показала себя на ROC, но плохо на PR-кривой.
Это связано с высоким дисбалансом классов в наших данных. Кривая ROC не является хорошей визуальной иллюстрацией для сильно несбалансированных данных, поскольку уровень ложного положительного отклика (ложные положительные / общие реальные отрицательные) не снижается резко, когда общее число реальных отрицательных значительное.
Тогда как точность (истинные положительные / (истинные положительные + ложные положительные)) очень чувствительна к ложным положительным и не затрагивается большим общим реальным отрицательным знаменателем.
Наибольшие различия между моделями наблюдаются при уровне отзыва около 0.8. Похоже, что меньший вес, то есть 5 и 10, значительно превосходит другие веса при уровне отзыва 0.8. Это значит, что с этими специфическими весами наша модель может хорошо обнаруживать мошенничество (перехватывая 80% мошенничества), при этом не раздражая клиентов ложными положительными результатами при такой же высокой точности 80%.
Без дальнейшей настройки нашей модели, и, конечно, мы должны проводить кросс-валидацию для любой реальной настройки/валидации модели, похоже, что обычная логистическая регрессия застряла סביב уровне Precision и Recall около 0.8. Так как же мы знаем, стоит ли жертвовать точностью ради большего отзыва, то есть перехвата мошенничества? Это то место, где наука о данных сочетается с основными параметрами вашего бизнеса. Если стоимость пропуска мошенничества значительно превышает стоимость отмены ряда легитимных транзакций клиентов, то есть ложных положительных, возможно, стоит выбрать вес, который дает более высокий уровень отзыва. Или, возможно, уловка 80% мошенничества достаточна для вашего бизнеса, если вы также можете минимизировать “трение с пользователем” или сбои в кредитных картах, поддерживая высокую точность.

Мой вывод:

Несмотря на то, что ваша PR-кривая выглядит плохо, учитывая дисбаланс классов, это лучший показатель, и вы должны стремиться к его улучшению, чтобы ваша модель была наилучшим образом адаптирована для вашего приложения.

Наблюдение:

У вас есть набор данных из 100 образцов, и только 2 из них относятся к $C_1$, вы поняли правильно?

Теперь предположим, что один из этих 2 является полным выбросом для своего класса, $C_1$. Он причиняет больше вреда, чем пользы для настройки вашей модели, и поскольку он составляет 50% ваших образцов класса $C_1$, он может привести к плохой производительности вашей модели.

Question 4

Одной из возможных причин может быть то, что ваш набор данных слишком мал и вашего алгоритма недостаточно образцов для “обучения”.

Если вы “сбалансируете” свой набор данных, у алгоритма будет достаточно данных для “обучения”, и, следовательно, ваши показатели точности / отзыва увеличиваются.

Почему балансировка тестового набора данных улучшает кривую точности-вызова?

Вопрос или проблема

Попытка ответа

Мой вывод:

Наблюдение:

Ответ или решение