В чем разница между бутстрэппингом и кросс-валидацией?

Question 1

Раньше я использовал K-кратную кросс-валидацию для надежной оценки моих моделей машинного обучения. Но я также знаю о существовании метода бутстрэппинга для этой цели. Тем не менее, я не вижу основной разницы между ними с точки зрения оценки производительности.

Насколько я вижу, бутстрэппинг также создает определенное количество случайных обучающих и тестовых подмножеств (хоть и по другому принципу), так в чем же суть, преимущество использования этого метода по сравнению с кросс-валидацией? Единственное, что я смог выяснить, это то, что в случае бутстрэппинга можно искусственно создать практически произвольное количество таких подмножеств, в то время как для кросс-валидации количество экземпляров является своего рода ограничением для этого. Но этот аспект кажется очень незначительной неприятностью.

Question 2

И кросс-валидация, и бутстрэппинг являются методами повторной выборки.

Бутстрэппинг выполняет выборку с возвращением (и обычно создает новые “суррогатные” наборы данных с тем же количеством случаев, что и оригинальный набор данных). Из-за выборки с возвращением, набор данных, созданный методом бутстрэппинга, может содержать несколько экземпляров одних и тех же оригинальных случаев и может полностью игнорировать другие оригинальные случаи.
Кросс-валидация выполняет выборку без возвращения и, таким образом, создает суррогатные наборы данных, которые меньше оригинального. Эти наборы данных создаются систематическим образом, так что после заранее определенного числа $k$ суррогатных наборов данных каждый из $n$ оригинальных случаев был пропущен ровно один раз. Это называется K-кратной кросс-валидацией или кросс-валидацией с исключением x с $x = \frac{n}{k}$, например, в кросс-валидации с исключением одного случая пропускается 1 случай для каждого суррогатного набора, т.е. $k = n$.
Как следует из названия “кросс-валидация“, ее основная цель – измерение (обобщающей) производительности модели. В отличие от этого, бутстрэппинг используется в первую очередь для установления эмпирических распределительных функций для широкого спектра статистик (широкого в смысле, охватывающего, скажем, вариацию среднего до вариации моделей в ансамблевых моделях с бэггингом).
Аналог процедуры бутстрэппинга с исключением одного случая называется джекнайфингом (и на самом деле он старше бутстрэппинга).
Аналог бутстрэппинга для оценок обобщающей ошибки кросс-валидации называется оценкой вне бутстрэппинга (поскольку тестовые случаи – это те, которые были исключены из обучающего набора данных, выбранного методом бутстрэппинга).

[кросс-валидация против оценки вне бутстрэпинга] Тем не менее, я не вижу основной разницы между ними с точки зрения оценки производительности.

Эта интуиция правильная: на практике часто нет большой разницы между итеративной $k$-кратной кросс-валидацией и вне бутстрэпинга. При похожем общем количестве оцененных суррогатных моделей общая ошибка [измерения ошибки предсказания модели] оказалась схожей, хотя вне бутстрэпинга обычно имеет больше смещения и меньше дисперсии, чем соответствующие оценки кросс-валидации.

Существует ряд попыток уменьшить смещение вне бутстрэпинга (.632-бутстрэп, .632+-бутстрэп), но улучшат ли они ситуацию, зависит от конкретного случая.

Литература:

Единственное, что я смог выяснить, это то, что в случае бутстрэппинга можно искусственно создать практически произвольное количество таких подмножеств, в то время как для кросс-валидации количество экземпляров является своего рода ограничением для этого.

Да, существует меньше возможных комбинаций для кросс-валидации, чем для бутстрэппинга. Но лимит для кросс-валидации, вероятно, выше, чем вы осознаете.
Для набора данных с $n$ случаями и K-кратной кросс-валидацией у вас есть:

Кросс-валидация $\binom{n}{k}$ комбинаций без возвращения (для k < n это намного больше, чем $k$ возможности, которые обычно оцениваются) против
Бутстрэп/вне бутстрэпинга $\binom{2 n – 1}{n}$ комбинаций с возвращением (которые снова намного больше, чем, скажем, 100 или 1000 суррогатных моделей, которые обычно оцениваются)

Question 3

Бутстрэппинг – это любой тест или метрика, которые основываются на случайной выборке с возвращением. Это метод, который помогает в многих ситуациях, таких как валидация производительности предсказательной модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т.д. Он работает, выполняя выборку с возвращением из оригинального набора данных, и в то же время предполагая, что точки данных, которые не были выбраны, являются тестовым набором данных. Мы можем повторить эту процедуру несколько раз и вычислить средний балл для оценки производительности нашей модели. Также бутстрэппинг связан с методами ансамблевого обучения, поскольку мы можем построить модель, используя каждый бутстрэп-данный набор, и “упаковать” эти модели в ансамбль, используя голосование большинства (для классификации) или вычисление среднего (для численных предсказаний) для всех этих моделей в качестве нашего окончательного результата.

Кросс-валидация – это процедура для проверки производительности модели, которая осуществляется путем деления обучающих данных на k частей. Мы предполагаем, что k-1 часть является обучающим набором, а другая часть – нашим тестовым набором. Мы можем повторить это k раз, каждый раз удерживая другую часть данных. В конечном итоге мы берем среднее значение k оценок как нашу оценку производительности. Кросс-валидация может страдать от смещения или дисперсии. Увеличивая количество разбиений, дисперсия также увеличивается, а смещение уменьшается. С другой стороны, если мы уменьшаем количество разбиений, смещение увеличивается, а дисперсия уменьшается.

В заключение, кросс-валидация разбивает доступный набор данных для создания нескольких наборов данных, а метод бутстрэппинга использует оригинальный набор данных для создания нескольких наборов данных после повторной выборки с возвращением. Бутстрэппинг не так силен, как кросс-валидация, когда речь идет о валидации модели. Бутстрэппинг больше касается построения ансамблевых моделей или просто оценки параметров.

Question 4

Кросс-валидация: предоставляет оценки тестовой ошибки.
Бутстрэп: предоставляет стандартную ошибку оценок.

Question 5

Да, бутстрэппинг устраняет смещение, но все равно имеет тенденцию к переобучению из-за того, что выполняется с возвращением. Обычно используется для оценки неопределенности.
Кросс-валидация используется на этапе выбора набора предикторов (выбор признаков или факторный анализ), а затем снова используется кросс-валидация для тестирования модели (классификатора или регрессии) – в многомерных данных важно делать кросс-валидацию дважды.

P.S. выполняйте кросс-валидацию правильным образом – обратите внимание на стр. 18, чтобы правильно получить тестовую ошибку с помощью кросс-валидации.

Легко симулировать реалистичные данные с классами меток, независимыми от результата, так что истинная тестовая ошибка = 50%, но оценка ошибки кросс-валидации, игнорирующая шаг 1 (выбор признаков), равна нулю!

В чем разница между бутстрэппингом и кросс-валидацией?

Вопрос или проблема

Ответ или решение

Основные принципы

Цели применения

Преимущества и недостатки

Итоговая оценка