Почему перекрёстная проверка имеет пессимистичный уклон?

Вопрос или проблема

В моих конспектах курса указаны две причины, почему кросс-валидация имеет пессимистичный уклон. Первая причина заключается в том, что точность измеряется для моделей, которые обучены на меньшем количестве данных, что я понимаю. Однако вторую причину я не понимаю. Предположительно, когда мы выполняем кросс-валидацию и разделяем наши данные D на обучающие наборы D_i и тестовые наборы T_i, то D_i и T_i не являются независимыми (и даже дополняющими) при заданных D.

Однако я не вижу, почему эта ситуация отличается от случая, когда мы используем фиксированный тестовый набор: если у нас есть обучающий набор D и тестовый набор T, то T и D также не являются независимыми при объединении D и T. В этом случае смещения нет, поэтому я ожидал бы отсутствия смещения для кросс-валидации (кроме того, что модель обучается на меньшем количестве данных). Конечно, поскольку различные модели, которые мы обучаем для кросс-валидации, используют пересекающиеся данные, я ожидал бы, что их точность будет коррелировать, что может привести к большей дисперсии, но я не вижу, как это может привести к смещению.

Проблема возникает из-за того, что эти k подмножества не выбираются случайным образом и часто являются последовательными. Например, в k-кратной кросс-валидации набор данных делится на k последовательных блоков. Эта несогласованность в выборе обучающих и тестовых наборов означает, что модель может обнаруживать шаблоны, характерные для конкретного разделения данных.

В крайнем случае, в случае кросс-валидации “с оставлением одного” (LOOCV), где k равно количеству точек данных, каждая модель обучается на почти всех точках данных, кроме одной, что делает обучающие и тестовые наборы почти идентичными. В таких случаях модель может в конечном итоге переобучиться на конкретные точки данных в обучающем наборе, что приводит к оптимистичному уклону в оценке точности.

В отличие от этого, когда вы используете фиксированный тестовый набор, независимый от обучающих данных, потенциальное смещение из-за несвободы в обучающих и тестовых наборах не является проблемой. Тестовый набор полностью отделен от обучающего набора, и модель оценивается на действительно невидимых и независимых данных, что ведет к более надежной оценке производительности модели на новых данных.

Для уменьшения смещения из-за несвободы в кросс-валидации исследователи иногда используют такие методы, как стратифицированная k-кратная кросс-валидация, которая пытается обеспечить более точное представление общей распределенности классов данных в каждом блоке. Однако важно знать о таком смещении и использовать кросс-валидацию надлежащим образом, особенно когда набор данных небольшой или сильно несбалансированный.

Ответ или решение

Теория: Кросс-валидация является стандартной процедурой в машинообучении, позволяющей оценивать качество моделей, обученных на поднаборах данных. Основная идея заключается в повторном разбиении исходного набора данных на обучающие и тестовые подмножества и оценки качества модели на каждом из них. Однако, данная методика может проявлять пессимистичный уклон — это значит, что оценка качества модели может быть заниженной по сравнению с тем, что можно ожидать при применении всех данных для обучения.

Приклад: Первая причина пессимистичного уклона заключается в том, что каждая итерация кросс-валидации обучает модель на менее полном наборе данных, чем полный набор. В ситуации, где все данные доступны для обучения, модель потенциально могла бы извлечь больше информации и показать лучшие результаты на независимых тестовых данных. Вторая причина пессимистичного уклона связана с зависимостью между обучающими и тестовыми подмножествами (D_i и T_i). Несмотря на их комплементарность в рамках исходного полного набора данных D, данные подмножества взаимосвязаны, что накладывает ограничения на независимость тестирования.

Когда используется фиксированный независимый тестовый набор, взаимодействия между обучающими и тестовыми данными минимизированы, так как тестовый набор никак не перекрывается с обучающим, что позволяет получить более чистую, независимую оценку производительности модели.

Кроме того, метод кросс-валидации, в частности k-fold, предполагает последовательное, а не случайное разбиение данных, что накладывает ограничения на универсальность оценки модели, если данные не упорядочены случайным образом.

Применение: Чтобы уменьшить воздействия пессимистичного уклона, часто используются модификации кросс-валидации, такие как стратифицированный кросс-валидационный подход, который обеспечивает равномерное распределение классов при разбиении на folds. Это может помочь улучшить согласованность результатов, особенно в случае дисбалансированных данных. Однако, пользователь должен всегда помнить о возможности возникновения уклона при малых объемах данных или при наличии сильной зависимости между измерениями, и соответственно учитывать это при интерпретации результатов моделей.

Оцените материал
Добавить комментарий

Капча загружается...