Как сравнить различные ML модели для импутации, если я разделяю данные на обучающую и тестовую выборки?

Содержание

Вопрос или проблема
Ответ или решение
Теория
Пример
Применение
Заключение

Вопрос или проблема

У меня есть полный набор данных, и я вводю пропуски с помощью одного из типов (MCAR, MAR, MNAR), затем разделяю данные на обучающую и тестовую выборки. После этого я восстанавливаю пропущенные значения, используя различные алгоритмы машинного обучения, такие как (случайный лес, KNN и т. д.) отдельно в обучающей и тестовой выборках.

Мой вопрос заключается в том, что я хочу сравнить эти алгоритмы, используя метрики, такие как (RMSE, MAE, MSE и R^2), сравнение проводится между истинными и восстановленными значениями.

Следует ли мне использовать (истинные и восстановленные значения) из тестовой выборки, обучающей выборки или из комбинации обучающей и тестовой выборок?

Ответ или решение

Когда речь заходит о сравнении различных алгоритмов машинного обучения для импутации данных, важно учитывать как теорию, так и контекст использования этих алгоритмов. Давайте рассмотрим, как именно можно сравнивать модели, опираясь на разбиение данных на тренировочный и тестовый наборы, а также на такие метрики, как RMSE (среднеквадратичная ошибка), MAE (средняя абсолютная ошибка), MSE (средняя квадратичная ошибка) и коэффициент детерминации R^2.

Теория

Импутация пропущенных значений является важной задачей в анализе данных, поскольку большинство машинных алгоритмов не могут работать с неполными наборами данных. В зависимости от типа пропущенности данных — MCAR (Missing Completely at Random), MAR (Missing at Random) или MNAR (Missing Not at Random) — различные алгоритмы могут давать неодинаковые результаты. Наиболее популярные методы для импутации включают Random Forest, K-Nearest Neighbors (KNN) и другие статистические методы.

Процесс оценки эффективности модели обычно включает разбиение данных на обучающую и тестовую выборки. Обучающая выборка используется для подгонки модели, то есть для «обучения», в то время как тестовая выборка используется для оценки её производительности на новых, неизвестных данных.

Пример

Рассмотрим сценарий, когда вы имеете полный набор данных и искусственно вводите пропущенные значения. Затем вы разделяете данные на обучающую и тестовую выборки и применяете различные алгоритмы импутации. После иммутации доступно сравение этих подходов по точности на основе метрик, таких как RMSE, MAE, MSE и R^2.

RMSE и MSE: Эти метрики предоставляют оценку отклонения иммутационных значений от реальных. Поскольку это квадратичные ошибки, они более чувствительны к большим отклонениям.
MAE: Эта метрика дает среднее абсолютное отклонение, которое менее подвержено влиянию выбросов.
R^2: Коэффициент детерминации показывает, какая доля дисперсии в зависимой переменной объясняется независимыми переменными модели.

Применение

При сравнении моделей импутации необходимо учитывать, на какой выборке будет производиться оценка. В данном случае вы спрашиваете, следует ли сравнивать модели на обучающей, тестовой выборках или их комбинации. Вот несколько рекомендаций:

Тестовая выборка: Оценивать модель на тестовых данных — это классический и рекомендуемый метод. Он позволяет получить представление о том, как модель будет вести себя на новых данных, что особенно важно в реальных приложениях. Ваша цель — оценить общую способность модели интерполировать или предсказывать пропущенные значения в данных, которых она не видела.
Обучающая выборка: Использование обучающей выборки для сопоставления моделей также возможно, но менее желательно. Модель может переобучаться на обучающих данных, особенно если они неоднократно использовались в процессе оптимизации гиперпараметров.
Комбинация обучающей и тестовой выборок: Это может быть оправданным подходом, если ваш набор данных относительно мал, и вы хотите обеспечить более устойчивые оценки метрик. Однако при комбинированном подходе следует быть осторожными с возможным переобучением.

В идеале, для получения достоверных результатов, вы могли бы использовать кросс-валидацию. Это поможет в полной мере оценить, как модели взаимодействуют с пропущенными данными во всём массиве данных. Общее правило — базы оценки эффективности модели должны оставаться неизменными во время всех сопоставлений этих моделей.

Заключение

Чтобы достичь высокой степени уверенности в выборе наилучшего алгоритма для импутации, сконцентрируйтесь на оценке на тестовых данных, применяйте кросс-валидацию и анализируйте результаты метрик. Такой подход позволит вам выбрать наиболее успешный метод импутации для вашего конкретного случая, максимально сохраняя релевантность и возможность генерализации результатов.