В чем разница между бутстрэппингом и кросс-валидацией?

Вопрос или проблема

Раньше я использовал K-кратную кросс-валидацию для надежной оценки моих моделей машинного обучения. Но я также знаю о существовании метода бутстрэппинга для этой цели. Тем не менее, я не вижу основной разницы между ними с точки зрения оценки производительности.

Насколько я вижу, бутстрэппинг также создает определенное количество случайных обучающих и тестовых подмножеств (хоть и по другому принципу), так в чем же суть, преимущество использования этого метода по сравнению с кросс-валидацией? Единственное, что я смог выяснить, это то, что в случае бутстрэппинга можно искусственно создать практически произвольное количество таких подмножеств, в то время как для кросс-валидации количество экземпляров является своего рода ограничением для этого. Но этот аспект кажется очень незначительной неприятностью.

И кросс-валидация, и бутстрэппинг являются методами повторной выборки.

  • Бутстрэппинг выполняет выборку с возвращением (и обычно создает новые “суррогатные” наборы данных с тем же количеством случаев, что и оригинальный набор данных). Из-за выборки с возвращением, набор данных, созданный методом бутстрэппинга, может содержать несколько экземпляров одних и тех же оригинальных случаев и может полностью игнорировать другие оригинальные случаи.
  • Кросс-валидация выполняет выборку без возвращения и, таким образом, создает суррогатные наборы данных, которые меньше оригинального. Эти наборы данных создаются систематическим образом, так что после заранее определенного числа $k$ суррогатных наборов данных каждый из $n$ оригинальных случаев был пропущен ровно один раз. Это называется K-кратной кросс-валидацией или кросс-валидацией с исключением x с $x = \frac{n}{k}$, например, в кросс-валидации с исключением одного случая пропускается 1 случай для каждого суррогатного набора, т.е. $k = n$.

  • Как следует из названия “кросс-валидация“, ее основная цель – измерение (обобщающей) производительности модели. В отличие от этого, бутстрэппинг используется в первую очередь для установления эмпирических распределительных функций для широкого спектра статистик (широкого в смысле, охватывающего, скажем, вариацию среднего до вариации моделей в ансамблевых моделях с бэггингом).

  • Аналог процедуры бутстрэппинга с исключением одного случая называется джекнайфингом (и на самом деле он старше бутстрэппинга).

  • Аналог бутстрэппинга для оценок обобщающей ошибки кросс-валидации называется оценкой вне бутстрэппинга (поскольку тестовые случаи – это те, которые были исключены из обучающего набора данных, выбранного методом бутстрэппинга).

[кросс-валидация против оценки вне бутстрэпинга] Тем не менее, я не вижу основной разницы между ними с точки зрения оценки производительности.

Эта интуиция правильная: на практике часто нет большой разницы между итеративной $k$-кратной кросс-валидацией и вне бутстрэпинга. При похожем общем количестве оцененных суррогатных моделей общая ошибка [измерения ошибки предсказания модели] оказалась схожей, хотя вне бутстрэпинга обычно имеет больше смещения и меньше дисперсии, чем соответствующие оценки кросс-валидации.

Существует ряд попыток уменьшить смещение вне бутстрэпинга (.632-бутстрэп, .632+-бутстрэп), но улучшат ли они ситуацию, зависит от конкретного случая.

Литература:


Единственное, что я смог выяснить, это то, что в случае бутстрэппинга можно искусственно создать практически произвольное количество таких подмножеств, в то время как для кросс-валидации количество экземпляров является своего рода ограничением для этого.

Да, существует меньше возможных комбинаций для кросс-валидации, чем для бутстрэппинга. Но лимит для кросс-валидации, вероятно, выше, чем вы осознаете.
Для набора данных с $n$ случаями и K-кратной кросс-валидацией у вас есть:

  • Кросс-валидация $\binom{n}{k}$ комбинаций без возвращения (для k < n это намного больше, чем $k$ возможности, которые обычно оцениваются) против
  • Бутстрэп/вне бутстрэпинга $\binom{2 n – 1}{n}$ комбинаций с возвращением (которые снова намного больше, чем, скажем, 100 или 1000 суррогатных моделей, которые обычно оцениваются)

Бутстрэппинг – это любой тест или метрика, которые основываются на случайной выборке с возвращением. Это метод, который помогает в многих ситуациях, таких как валидация производительности предсказательной модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т.д. Он работает, выполняя выборку с возвращением из оригинального набора данных, и в то же время предполагая, что точки данных, которые не были выбраны, являются тестовым набором данных. Мы можем повторить эту процедуру несколько раз и вычислить средний балл для оценки производительности нашей модели. Также бутстрэппинг связан с методами ансамблевого обучения, поскольку мы можем построить модель, используя каждый бутстрэп-данный набор, и “упаковать” эти модели в ансамбль, используя голосование большинства (для классификации) или вычисление среднего (для численных предсказаний) для всех этих моделей в качестве нашего окончательного результата.

Кросс-валидация – это процедура для проверки производительности модели, которая осуществляется путем деления обучающих данных на k частей. Мы предполагаем, что k-1 часть является обучающим набором, а другая часть – нашим тестовым набором. Мы можем повторить это k раз, каждый раз удерживая другую часть данных. В конечном итоге мы берем среднее значение k оценок как нашу оценку производительности. Кросс-валидация может страдать от смещения или дисперсии. Увеличивая количество разбиений, дисперсия также увеличивается, а смещение уменьшается. С другой стороны, если мы уменьшаем количество разбиений, смещение увеличивается, а дисперсия уменьшается.

В заключение, кросс-валидация разбивает доступный набор данных для создания нескольких наборов данных, а метод бутстрэппинга использует оригинальный набор данных для создания нескольких наборов данных после повторной выборки с возвращением. Бутстрэппинг не так силен, как кросс-валидация, когда речь идет о валидации модели. Бутстрэппинг больше касается построения ансамблевых моделей или просто оценки параметров.

  • Кросс-валидация: предоставляет оценки тестовой ошибки.
  • Бутстрэп: предоставляет стандартную ошибку оценок.
  • Да, бутстрэппинг устраняет смещение, но все равно имеет тенденцию к переобучению из-за того, что выполняется с возвращением. Обычно используется для оценки неопределенности.
  • Кросс-валидация используется на этапе выбора набора предикторов (выбор признаков или факторный анализ), а затем снова используется кросс-валидация для тестирования модели (классификатора или регрессии) – в многомерных данных важно делать кросс-валидацию дважды.

P.S. выполняйте кросс-валидацию правильным образом – обратите внимание на стр. 18, чтобы правильно получить тестовую ошибку с помощью кросс-валидации.

Легко симулировать реалистичные данные с классами меток, независимыми от результата, так что истинная тестовая ошибка = 50%, но оценка ошибки кросс-валидации, игнорирующая шаг 1 (выбор признаков), равна нулю!

Ответ или решение

Разница между бутстрэppingом и кросс-валидизацией: подробный анализ

Вопрос о различиях между бутстрэппингом и кросс-валидацией является важным для специалистов в области машинного обучения, стремящихся к адекватной оценке эффективности моделей. Обе методы относятся к категории методов ресэмплинга, однако их применение и базовые принципы различаются. Рассмотрим эти отличия более подробно.

Основные принципы

  1. Бутстрэппинг:

    • Бутстрэппинг — это метод, который использует случайную выборку с возвращением. Это означает, что при создании нового множества данных из оригинального набора возможно многоразовое использование одних и тех же экземпляров, в то время как некоторые экземпляры могут вовсе отсутствовать.
    • Обычно бутстрэппинг генерирует новые «вторичные» наборы данных, которые имеют такое же количество экземпляров, как оригинальный. При этом некоторые экземпляры могут повторяться, а другие не попадать в выборку.
  2. Кросс-валидация:

    • В отличие от бутстрэппинга, кросс-валидация (особенно k-пfold кросс-валидация) использует выборку без возвращения. В этом случае набор данных делится на k фолдов. На каждой итерации k-1 фолдов используется для обучения модели, а один — для ее тестирования.
    • Таким образом, каждый экземпляр оригинального набора данных будет протестирован ровно один раз.

Цели применения

  • Кросс-валидация:

    • Основная цель кросс-валидации заключается в оценке обобщающей способности модели. Этот метод обеспечивает более надежную оценку ошибки на наборе тестовых данных.
    • Кросс-валидация позволяет избежать переобучения, так как каждый экземпляр данных испытывается на тесте, что способствует правильной оценке его производительности.
  • Бутстрэппинг:

    • Бутстрэппинг в первую очередь используется для вычисления эмпирических распределений и оценки статистических величин, таких как дисперсии оценок.
    • Он является особенно полезным в контексте построения ансамблей, таких как случайные леса, где создаются несколько моделей на основе бутстрэппированных выборок, а затем результаты ансамблируются.

Преимущества и недостатки

  • Кросс-валидация:

    • Преимущества: Обеспечивает хорошую оценку производительности модели, минимизирует смещение и проверяет модель на каждом экземпляре данных.
    • Недостатки: Время выполнения увеличивается с увеличением количества фолдов, и в больших наборах данных это может быть проблемой.
  • Бутстрэппинг:

    • Преимущества: Способен генерировать большое количество подвыборок, позволяет оценить значимость моделирования.
    • Недостатки: Может приводить к смещению, так как используется выборка с возвращением; часто дает результаты с повышенным уровнем вариативности по сравнению с кросс-валидацией.

Итоговая оценка

В заключение, кросс-валидация и бутстрэппинг служат различным целям и имеют свои уникальные особенности. Кросс-валидация — это мощный инструмент для оценки производительности моделей, который позволяет избежать переобучения и предоставляет надежную оценку обобщающей способности. Бутстрэппинг, в свою очередь, подходит для оценки статистических характеристик и построения ансамблей, но требует осторожности при интерпретации результатов.

В зависимости от конкретной задачи и характера данных, оба метода могут быть полезны. Выбор между ними должен осуществляться в зависимости от поставленных целей оценки и анализа.

Оцените материал
Добавить комментарий

Капча загружается...