Вопрос или проблема
Раньше я использовал K-кратную кросс-валидацию для надежной оценки моих моделей машинного обучения. Но я также знаю о существовании метода бутстрэппинга для этой цели. Тем не менее, я не вижу основной разницы между ними с точки зрения оценки производительности.
Насколько я вижу, бутстрэппинг также создает определенное количество случайных обучающих и тестовых подмножеств (хоть и по другому принципу), так в чем же суть, преимущество использования этого метода по сравнению с кросс-валидацией? Единственное, что я смог выяснить, это то, что в случае бутстрэппинга можно искусственно создать практически произвольное количество таких подмножеств, в то время как для кросс-валидации количество экземпляров является своего рода ограничением для этого. Но этот аспект кажется очень незначительной неприятностью.
И кросс-валидация, и бутстрэппинг являются методами повторной выборки.
- Бутстрэппинг выполняет выборку с возвращением (и обычно создает новые “суррогатные” наборы данных с тем же количеством случаев, что и оригинальный набор данных). Из-за выборки с возвращением, набор данных, созданный методом бутстрэппинга, может содержать несколько экземпляров одних и тех же оригинальных случаев и может полностью игнорировать другие оригинальные случаи.
-
Кросс-валидация выполняет выборку без возвращения и, таким образом, создает суррогатные наборы данных, которые меньше оригинального. Эти наборы данных создаются систематическим образом, так что после заранее определенного числа $k$ суррогатных наборов данных каждый из $n$ оригинальных случаев был пропущен ровно один раз. Это называется K-кратной кросс-валидацией или кросс-валидацией с исключением x с $x = \frac{n}{k}$, например, в кросс-валидации с исключением одного случая пропускается 1 случай для каждого суррогатного набора, т.е. $k = n$.
-
Как следует из названия “кросс-валидация“, ее основная цель – измерение (обобщающей) производительности модели. В отличие от этого, бутстрэппинг используется в первую очередь для установления эмпирических распределительных функций для широкого спектра статистик (широкого в смысле, охватывающего, скажем, вариацию среднего до вариации моделей в ансамблевых моделях с бэггингом).
-
Аналог процедуры бутстрэппинга с исключением одного случая называется джекнайфингом (и на самом деле он старше бутстрэппинга).
- Аналог бутстрэппинга для оценок обобщающей ошибки кросс-валидации называется оценкой вне бутстрэппинга (поскольку тестовые случаи – это те, которые были исключены из обучающего набора данных, выбранного методом бутстрэппинга).
[кросс-валидация против оценки вне бутстрэпинга] Тем не менее, я не вижу основной разницы между ними с точки зрения оценки производительности.
Эта интуиция правильная: на практике часто нет большой разницы между итеративной $k$-кратной кросс-валидацией и вне бутстрэпинга. При похожем общем количестве оцененных суррогатных моделей общая ошибка [измерения ошибки предсказания модели] оказалась схожей, хотя вне бутстрэпинга обычно имеет больше смещения и меньше дисперсии, чем соответствующие оценки кросс-валидации.
Существует ряд попыток уменьшить смещение вне бутстрэпинга (.632-бутстрэп, .632+-бутстрэп), но улучшат ли они ситуацию, зависит от конкретного случая.
Литература:
- Кохави, Р.: Исследование кросс-валидации и бутстрэппинга для оценки точности и выбора модели, Меллиш, К. С. (ред.) Сборник искусственного интеллекта 14$-й$ международной совместной конференции, 20 – 25 августа 1995 года, Монреаль, Квебек, Канада, Морган Кауфман, США, 1137 – 1145 (1995).
- Ким, Дж.-Х. Оценка коэффициента ошибки классификации: Повторная кросс-валидация, повторное удержание и бутстрэп, Компьютерная статистика и анализ данных, 53, 3735 – 3745 (2009). DOI: 10.1016/j.csda.2009.04.009
- Белеитес, К.; Баумгартнер, Р.; Боуман, К.; Соморкаи, Р.; Штайнер, Г.; Сальцер, Р. и Сова, М. Г. Снижение дисперсии при оценке ошибки классификации с использованием разреженных наборов данных, Хемометрия и интеллектуальные лабораторные системы, 79, 91 – 100 (2005).
Единственное, что я смог выяснить, это то, что в случае бутстрэппинга можно искусственно создать практически произвольное количество таких подмножеств, в то время как для кросс-валидации количество экземпляров является своего рода ограничением для этого.
Да, существует меньше возможных комбинаций для кросс-валидации, чем для бутстрэппинга. Но лимит для кросс-валидации, вероятно, выше, чем вы осознаете.
Для набора данных с $n$ случаями и K-кратной кросс-валидацией у вас есть:
- Кросс-валидация $\binom{n}{k}$ комбинаций без возвращения (для k < n это намного больше, чем $k$ возможности, которые обычно оцениваются) против
- Бутстрэп/вне бутстрэпинга $\binom{2 n – 1}{n}$ комбинаций с возвращением (которые снова намного больше, чем, скажем, 100 или 1000 суррогатных моделей, которые обычно оцениваются)
Бутстрэппинг – это любой тест или метрика, которые основываются на случайной выборке с возвращением. Это метод, который помогает в многих ситуациях, таких как валидация производительности предсказательной модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т.д. Он работает, выполняя выборку с возвращением из оригинального набора данных, и в то же время предполагая, что точки данных, которые не были выбраны, являются тестовым набором данных. Мы можем повторить эту процедуру несколько раз и вычислить средний балл для оценки производительности нашей модели. Также бутстрэппинг связан с методами ансамблевого обучения, поскольку мы можем построить модель, используя каждый бутстрэп-данный набор, и “упаковать” эти модели в ансамбль, используя голосование большинства (для классификации) или вычисление среднего (для численных предсказаний) для всех этих моделей в качестве нашего окончательного результата.
Кросс-валидация – это процедура для проверки производительности модели, которая осуществляется путем деления обучающих данных на k частей. Мы предполагаем, что k-1 часть является обучающим набором, а другая часть – нашим тестовым набором. Мы можем повторить это k раз, каждый раз удерживая другую часть данных. В конечном итоге мы берем среднее значение k оценок как нашу оценку производительности. Кросс-валидация может страдать от смещения или дисперсии. Увеличивая количество разбиений, дисперсия также увеличивается, а смещение уменьшается. С другой стороны, если мы уменьшаем количество разбиений, смещение увеличивается, а дисперсия уменьшается.
В заключение, кросс-валидация разбивает доступный набор данных для создания нескольких наборов данных, а метод бутстрэппинга использует оригинальный набор данных для создания нескольких наборов данных после повторной выборки с возвращением. Бутстрэппинг не так силен, как кросс-валидация, когда речь идет о валидации модели. Бутстрэппинг больше касается построения ансамблевых моделей или просто оценки параметров.
- Кросс-валидация: предоставляет оценки тестовой ошибки.
- Бутстрэп: предоставляет стандартную ошибку оценок.
- Да, бутстрэппинг устраняет смещение, но все равно имеет тенденцию к переобучению из-за того, что выполняется с возвращением. Обычно используется для оценки неопределенности.
- Кросс-валидация используется на этапе выбора набора предикторов (выбор признаков или факторный анализ), а затем снова используется кросс-валидация для тестирования модели (классификатора или регрессии) – в многомерных данных важно делать кросс-валидацию дважды.
P.S. выполняйте кросс-валидацию правильным образом – обратите внимание на стр. 18, чтобы правильно получить тестовую ошибку с помощью кросс-валидации.
Легко симулировать реалистичные данные с классами меток, независимыми от результата, так что истинная тестовая ошибка = 50%, но оценка ошибки кросс-валидации, игнорирующая шаг 1 (выбор признаков), равна нулю!
Ответ или решение
Разница между бутстрэppingом и кросс-валидизацией: подробный анализ
Вопрос о различиях между бутстрэппингом и кросс-валидацией является важным для специалистов в области машинного обучения, стремящихся к адекватной оценке эффективности моделей. Обе методы относятся к категории методов ресэмплинга, однако их применение и базовые принципы различаются. Рассмотрим эти отличия более подробно.
Основные принципы
-
Бутстрэппинг:
- Бутстрэппинг — это метод, который использует случайную выборку с возвращением. Это означает, что при создании нового множества данных из оригинального набора возможно многоразовое использование одних и тех же экземпляров, в то время как некоторые экземпляры могут вовсе отсутствовать.
- Обычно бутстрэппинг генерирует новые «вторичные» наборы данных, которые имеют такое же количество экземпляров, как оригинальный. При этом некоторые экземпляры могут повторяться, а другие не попадать в выборку.
-
Кросс-валидация:
- В отличие от бутстрэппинга, кросс-валидация (особенно k-пfold кросс-валидация) использует выборку без возвращения. В этом случае набор данных делится на k фолдов. На каждой итерации k-1 фолдов используется для обучения модели, а один — для ее тестирования.
- Таким образом, каждый экземпляр оригинального набора данных будет протестирован ровно один раз.
Цели применения
-
Кросс-валидация:
- Основная цель кросс-валидации заключается в оценке обобщающей способности модели. Этот метод обеспечивает более надежную оценку ошибки на наборе тестовых данных.
- Кросс-валидация позволяет избежать переобучения, так как каждый экземпляр данных испытывается на тесте, что способствует правильной оценке его производительности.
-
Бутстрэппинг:
- Бутстрэппинг в первую очередь используется для вычисления эмпирических распределений и оценки статистических величин, таких как дисперсии оценок.
- Он является особенно полезным в контексте построения ансамблей, таких как случайные леса, где создаются несколько моделей на основе бутстрэппированных выборок, а затем результаты ансамблируются.
Преимущества и недостатки
-
Кросс-валидация:
- Преимущества: Обеспечивает хорошую оценку производительности модели, минимизирует смещение и проверяет модель на каждом экземпляре данных.
- Недостатки: Время выполнения увеличивается с увеличением количества фолдов, и в больших наборах данных это может быть проблемой.
-
Бутстрэппинг:
- Преимущества: Способен генерировать большое количество подвыборок, позволяет оценить значимость моделирования.
- Недостатки: Может приводить к смещению, так как используется выборка с возвращением; часто дает результаты с повышенным уровнем вариативности по сравнению с кросс-валидацией.
Итоговая оценка
В заключение, кросс-валидация и бутстрэппинг служат различным целям и имеют свои уникальные особенности. Кросс-валидация — это мощный инструмент для оценки производительности моделей, который позволяет избежать переобучения и предоставляет надежную оценку обобщающей способности. Бутстрэппинг, в свою очередь, подходит для оценки статистических характеристик и построения ансамблей, но требует осторожности при интерпретации результатов.
В зависимости от конкретной задачи и характера данных, оба метода могут быть полезны. Выбор между ними должен осуществляться в зависимости от поставленных целей оценки и анализа.