Как эффективно оценить модель с сильно несбалансированным и ограниченным набором данных

Вопрос или проблема

Большинство вопросов о дисбалансе данных на этом сайте касаются того, как обучить лучшую модель, но я склонен считать, что другая проблема заключается в том, как определить “лучшую” модель (т.е. справедливо оценить обученную модель), чтобы гарантировать, что производительность оценки на ограниченном тестовом наборе не страдает от высокой дисперсии, поскольку многие из классов с дисбалансом также имеют ограниченное количество образцов. Я изложу мое текущее понимание ниже. Сначала предположим, что у нас есть 1000 образцов, из которых только 10 имеют положительные метки. Наша задача — бинарная классификация. Обычная практика — проводить кросс-валидацию. В типичной настройке кросс-валидации сначала разделяют данные на оставшуюся часть и удерживаемую выборку, затем проводят кросс-валидацию на оставшемся наборе для подбора гиперпараметров. Оценка модели проводится на тестовом наборе, с использованием либо одной из обученных моделей фолда, ансамбля всех фолдов, либо повторно обученной модели на полном оставшемся наборе. Однако тестовый набор все же состоит только из двух положительных образцов, что может очень вероятно привести к дисперсии в разделении. Основываясь на такой интуиции, естественным образом напрашивается мысль о трёхсторонней кросс-валидации, которая разделяет каждый фолд на обучающие, валидационные и тестовые наборы. Тестовая производительность будет усреднением всех тестовых производительностей по фолдам. Однако это действительно сбивает меня с толку, потому что мы даже не используем одну единственную модель для оценки, и это не может действительно сказать нам, как одна выбранная модель поведёт себя в реальном мире. Я понимаю, что у нас есть предпосылка, что тестовое распределение должно быть таким же, как и общее. Но два положительных тестовых образца не могут захватить распределение. В такой ситуации, что нам делать?

Я думаю, что один из способов — использовать проверку методом бутстрапа несколько раз, чтобы оценить распределение метрики, представляющей интерес.

Ответ или решение

Как эффективно оценить модель с сильно несбалансированным и ограниченным набором данных

Когда речь идет о задаче бинарной классификации с явным дисбалансом классов, особенно при ограниченном количестве данных, оценка модели становится сложной задачей. В данной ситуации, у нас 1000 образцов, из которых только 10 имеют положительные метки. Этот контекст требует от нас особенно тщательного подхода к разработке и оценке моделей.

Шаг 1: Правильный подход к кросс-валидации

Классическая кросс-валидация может показать себя неэффективной в таком дисбалансном контексте, так как выборка из всего двух положительных примеров на тесте может серьезно искажать результаты из-за высокой изменчивости. Рассмотрим следующие стратегии:

  1. Стратифицированная кросс-валидация: Стратифицированный подход гарантирует наличие положительных примеров в каждом из выборок для обучения и тестирования, что снижает изменчивость.

  2. Трехсторонняя кросс-валидация: Хотя может показаться, что использовать модели из всех фолдов нецелесообразно, важно помнить, что здесь цель — не выбор единственной модели, а оценка стабильности и обобщаемости подхода. Средняя производительность моделей может дать лучшее представление о их реальных возможностях.

Шаг 2: Анализ метрик

Использование обычных метрик, таких как accuracy, в данном случае некорректно из-за доминирования отрицательного класса. Вместо этого, акцентируйтесь на:

  • F1-score: Хорошо подходит для несбалансированных данных, так как учитывает как точность, так и полноту.
  • ROC-AUC: Может дать представление о способности модели различать классы.

Шаг 3: Бутстрап-оценка

Метод бутстрап оценивает распределение метрик интереса, создавая множество выборок с возвращением из имеющихся данных. Это позволяет более глубоко анализировать стабильность модели и получить интервал доверия для оценок.

Шаг 4: Использование техник балансировки

  • Перемаркировка классов: Подбор весов для классов таким образом, чтобы положительные примеры имели больший вес в процессе обучения.
  • Over-sampling и under-sampling: Соответствующие техники повышения или понижения выборок для улучшения представления редких классов.

Заключение

Эффективная оценка модели в условиях сильного дисбаланса и ограничения данных требует использования интегрированного подхода, включающего стратифицированные методы валидации, правильный выбор метрик и современные техники бустап-оценки. Таким образом, мы можем достигать более стабильных и реалистичных результатов.

Метки: дисбаланс классов, бинарная классификация, бутстрап, кросс-валидация, F1-score, ROC-AUC.
Оцените материал
Добавить комментарий

Капча загружается...