Есть ли какой-либо лучший подход, чем K-сложение и вложенное K-сложение?

Вопрос или проблема

Я пытаюсь понять, какую проблему решает K-перекрестная проверка. Она, похоже, не решает проблему утечки данных, так как мы все равно тестируем на тестовых данных, а затем берем среднее значение всех тестовых фолдов и повторно настраиваем модель.

Я могу понять, что с каждой моделью это похоже на обучение на новом наборе данных, это кажется положительным моментом.

Теперь, если я правильно понимаю, вложенные K-перекрестные проверки, похоже, решают эту проблему утечки данных. Но это похоже на выполнение настройки модели K раз и получение K моделей. Я действительно не вижу больших преимуществ, кроме как иметь 5 моделей и использовать их в реальном времени.

Теперь, почему мы не можем просто использовать альтернативный подход. Иметь K фолдов, оставить 1 фолд как только тестовые данные. Использовать K-1 фолдов для K-перекрестной проверки (K-2 для тренировки, 1 фолд для CV). Используя этот способ, мы будем оценивать нашу модель на невидимых данных.

Но, конечно, в этом должна быть какая-то недостатки, я хочу понять, почему этот альтернативный подход лучше, чем K-перекрестная проверка и вложенные K-перекрестные проверки.

K-перекрестная проверка (и вложенная K-перекрестная проверка, когда также настраиваются гиперпараметры) улучшает эффективность данных, которые у нас есть для обучения и тестирования.
Представьте, что вы используете набор данных из n записей и применяете K-перекрестную проверку. Это даст вам эффективные метрики производительности предсказания, если бы вы обучили модель на всем наборе, а затем протестировали ее на том же наборе, но так, как будто они не перекрываются. Этот метод достигает этого, избегая перекрытия в частях и кусочках за счет обучения модели k раз. Другими словами, он даст вам тот же уровень производительности предсказания, что и другой модели, которую вы бы обучили на наборе данных размером n и протестировали на другом отдельном неперекрывающемся наборе данных того же размера, таким образом требуя в два раза больше размера набора данных, использованного в K-перекрестной проверке для тех же результатов.

Ответ или решение

Разумный выбор подхода: K-поделы и их альтернатива

Вопрос о том, насколько эффективны и нужны K-поделы и их вложенные версии, конечно, актуален и требует детального анализа. Давайте взглянем на то, как K-поделы решают свою задачу, какую проблему они адресуют, и рассмотрим предложенный вами альтернативный подход.

Что такое K-поделы?

K-поделы — это метод оценки моделей, который включает разделение набора данных на K равных частей. На каждом шаге одна из частей используется для тестирования модели, в то время как остальные K-1 частей — для её обучения. Это помогает избежать проблемы переобучения и предоставляет более точную оценку производительности модели, чем простая оценка на одном тестовом наборе данных. Таким образом, K-поделы обеспечивают более эффективную эксплуатацию имеющихся данных, позволяя модель учиться и тестироваться на разных поднаборах.

Проблема утечки данных

Вы правы в своем замечании о том, что K-поделы могут не полностью устранить проблему утечки данных. При простом использовании K-поделов модель может быть перенастроена на основе результатов тестирования, что потенциально приводит к утечке информации. В этом контексте вложенные K-поделы представляют собой более продвинутый метод, позволяющий разделить задачи настройки гиперпараметров и оценки производительности модели. Они не только обучают модель на различных поднаборах данных, но и точнее контролируют процесс кросс-валидации.

Альтернативный подход

Ваш предложенный подход, в котором один из подмножеств остается исключительно тестовым, кажется интригующим. Этот метод подразумевает использование одного подмножества для окончательной оценки, в то время как другие данные используются для кросс-валидации и обучения.

Однако, следует отметить, что есть несколько недостатков:

  1. Снижение размера обучающего набора: Если вы удерживаете одну из частей как тестовую, оставшиеся данные используются для обучения и кросс-валидации, что может привести к тому, что модель не получает достаточного количества данных для обучения. Это особенно критично для небольших наборов данных, так как может ухудшить обобщающую способность модели.

  2. Потенциальная смещение в оценках: Использование одного и того же набора данных для кросс-валидации и обучения может ввести предвзятость в оценки модели. Модель может неадекватно оценивать свое качество, так как не имеет независимого тестового подмножества для окончательной верификации.

  3. Сложность выбора размера K: Установление оптимального размера K становится более сложным, если одна часть данных всегда отводится под тестирование. Например, при использовании большого K может возникнуть ситуация, когда модель обучается на слишком маленьких наборах данных, что негативно скажется на уровне предсказания.

Заключение

На вопрос о том, какой метод лучше — K-поделы с их вложенными версиями или предложенный вами альтернативный подход — однозначного ответа нет. K-поделы и вложенные K-поделы обеспечивают более точную и объективную оценку, повышая доверие к результатам модели. Альтернативный способ имеет свои преимущества, но может привести к проблемам с размером обучающего набора и смещением оценок.

Важно помнить, что выбор подходящего метода всегда зависит от конкретной задачи, размера и характеристик данных. Тщательный анализ каждой ситуации позволяет выбрать оптимальный подход, который будет способствовать максимизации качества модели.

Оцените материал
Добавить комментарий

Капча загружается...