Нестированная кросс-валидация: ошибка обобщения для нескольких моделей

Содержание

Вопрос или проблема
Ответ или решение
Выбор модели и настройка гиперпараметров
Заключение

Вопрос или проблема

Я имею в виду этот вопрос:

Вложенная кросс-валидация и выбор лучшей модели регрессии – является ли это правильным процессом SKLearn?

В ответах говорится, что вложенная кросс-валидация может оценивать ошибку обобщения оптимизации гиперпараметров для различных алгоритмов. Но, на мой взгляд, выбор между различными алгоритмами также является процессом оптимизации, который приводит к ошибкам обобщения. Поэтому либо выбор алгоритма должен быть частью внутренней кросс-валидации, либо нужно ввести третью кросс-валидацию для оценки ошибки выбора алгоритма. Это правильное предположение?

В общем, вы правы, и в этом ответе это было сделано, насколько я вижу. Модели сравниваются друг с другом, пока находится наилучшая настройка для них, как внутри цикла. Это выглядит нормально.

Что касается вашего тезиса, да. Но суть машинного обучения в том, что в какой-то момент нам следует остановиться/ограничить наши попытки, так как количество алгоритмов, которые могут выполнить задачу, очень велико. Обычно мы стараемся оценить разные семьи алгоритмов, а затем сужаем поиск оттуда, но в конечном итоге мы никогда не можем утверждать, что лучший ответ, который мы нашли, обязательно является наилучшим возможным ответом. С другой точки зрения, это основная идея большинства научных статей в области машинного обучения. Они просто креативно находят/модифицируют алгоритм и показывают, что он работает лучше, чем ранее применяемый алгоритм, через эталонный датасет.

У меня часто возникал этот вопрос. Если у меня есть задача классификации и я планирую использовать регрессию Lasso и/или Random Forest:

должен ли я рассматривать выбор модели (Lasso или RandomForest) как часть этапа настройки параметров и сообщать об ошибке обобщения для объединённого алгоритма, включая выбор модели, или
должен ли я вычислить ошибки обобщения, используя вложенную кросс-валидацию, отдельно для алгоритмов Lasso и RandomForest, притворяясь, что я решил использовать один метод, но хотел бы проверить, как бы работал другой метод по сравнению.

Я хотел бы предпочесть (2), потому что это позволяет сравнить два метода. Когда я затем классифицирую новые данные, я бы сообщил предсказания на основе обеих моделей и их оценочной точности. Например, если предсказания очень разные, было бы полезно знать, имели ли оба метода схожую точность (ошибку обобщения) или нет.

Ответ или решение

Ваша проблема касается оценки обобщающей способности моделей машинного обучения в контексте "вложенной кросс-валидации" (nested cross-validation). Это важный вопрос, так как выбор модели и настройка гиперпараметров могут значительно повлиять на результаты. Давайте разберем ваши пункты и предложим обоснованный ответ.

Выбор модели и настройка гиперпараметров

Комбинирование выбора модели с настройкой гиперпараметров: Вы правы в том, что выбор между различными алгоритмами является также частью процесса оптимизации. Однако в рамках вложенной кросс-валидации существует реализация, которая позволяет справляться с этой проблемой. Вложенная кросс-валидация состоит из двух уровней:
- Внешний уровень: используется для оценки обобщающей способности выбора модели.
- Внутренний уровень: на этом уровне выполняется настройка гиперпараметров для каждой модели отдельно, таким образом, выбирается наилучшая комбинация гиперпараметров для каждой модели.

Таким образом, выбор алгоритма и настройка гиперпараметров происходят одновременно на уровне внутренней кросс-валидации, и итоговая модель тестируется на уровне внешней кросс-валидации.

Оценка обобщающей ошибки для разных моделей: Можно рассмотреть оба предложенных вами подхода. Тем не менее, ваш предпочтительный метод (пункт 2) имеет свои преимущества:
- Сравнительный анализ моделей: Вы можете отдельно запустить вложенную кросс-валидацию для Lasso и Random Forest, чтобы получить представление о производительности каждой из моделей. Если обе модели имеют сопоставимую обобщающую способность, это может свидетельствовать о том, что обе стоит рассмотреть для дальнейшей работы.
- Отчетность и интерпретируемость: Когда вы классифицируете новые данные, вы можете сообщить предсказания на основе обеих моделей и оценить их точность. Если результаты значительно различаются, важно понимать, насколько точно работает каждая модель, и то, что они могут вести себя по-разному при различной структуре данных.

Заключение

Рекомендуется использовать вложенную кросс-валидацию как способ выбора и настройки моделей, что обеспечивает более надежную оценку обобщающей способности. При этом ваш подход с отдельной оценкой Lasso и Random Forest также имеет сильные стороны, особенно в контексте интерпретируемости результатов и возможность выбора среди нескольких моделей. В конечном итоге, выбор подхода может зависеть от конкретной задачи и контекста применения моделей.

Подводя итог, можно сказать, что оба подхода могут быть приемлемыми, однако важно обеспечить четкую и прозрачную методологию для сравнения моделей.