Сравнение RMSE на нескольких тестовых наборах данных различного размера

На чтение 3 мин Опубликовано 13.01.2025

Содержание

Вопрос или проблема
Ответ или решение
Теория (Theory)
Пример (Example)
Применение (Application)

Вопрос или проблема

У меня есть временные ряды данных (доходность акций), и я обучаю на них регрессию случайного леса. Общее количество наблюдений = 2499.

Чтобы лучше оценить производительность, я реализовал тестирование с прокатными окнами с размерами обучающего окна = 500, 700, 900,…, 2100. Хотя интуитивно кажется очевидным выбрать размер окна, который дал самый низкий RMSE, как я могу быть уверен, что сравнение справедливо?

Я имею в виду, что с увеличением размера окна размер тестового набора уменьшается. При размере окна 500 размер тестового набора составляет 1999. При размере окна 700 размер тестового набора составляет 1799.

Я думаю, что тот же вопрос применим к расширяющемуся окну.

Так что разумно ли сравнивать RMSE, когда количество тестовых образцов уменьшается в размере?

Если нет, то как выбрать наилучшее обучающее окно?

«Среднее значение» в RMSE гарантирует, что значение этого показателя сопоставимо и имеет одинаковый масштаб независимо от размера тестового окна.

Вы рассматривали возможность использования k-кратной перекрестной проверки? Это позволяет использовать единственное соотношение разделения на обучающую и тестовую выборки, например, 70:30, и в то же время создавать k разных наборов данных для вычисления RMSE.

K-кратная перекрестная проверка широко используется и хорошо изучена. Это, вероятно, более известная стратегия, чем описанная вами.

Ответ или решение

Теория (Theory)

При сравнении метрик ошибки, таких как среднеквадратичная ошибка (RMSE), на различных объемах тестовых выборок, важно учитывать, что RMSE сама по себе масштабирующая метрика, которая усредняет отклонения предсказаний модели от фактических данных. Это означает, что, теоретически, RMSE позволяет сравнивать модели даже при изменении размеров тестовых выборок. Однако, изменения в размере тестовой выборки могут повлиять на оценку производительности модели, особенно в задачах временных рядов, где структура данных важна.

Пример (Example)

Рассмотрим ситуацию, когда вы используете скользящее окно для проверки производительности модели с различными размерами обучающих выборок. С увеличением размера обучающей выборки (например, от 500 до 2100) количество тестовых данных уменьшается, что может привести к более высокой чувствительности оценки RMSE к специфическим выбросам или изменениям во временной структуре данных. Например, если размер тестовой выборки меньше, то выбросы будут иметь большее влияние на RMSE.

Применение (Application)

Чтобы объективно сравнить модели и выбрать оптимальный размер обучающего окна, рекомендуется использовать методики, которые учитывают изменения в структуре выборки. Одна из таких методик — это перекрестная проверка с временными рядами (time series cross-validation), включающая k-кратную перекрестную проверку (k-fold cross-validation) с временными отсечками.

Время учитывается таким образом, чтобы модели оценивались на данных, которые она ранее не видела. Это обеспечивает более равномерное распределение ошибок и помогает делать более надежные выводы о производительности модели на различных размерах обучающих выборок.

Выбирая размер окна, также рекомендуется провести тщательный анализ других метрик, таких как средняя абсолютная ошибка (MAE), и визуализировать ошибки для лучшего понимания поведения модели. Этот подход поможет выбрать размер обучающего окна, который обеспечит сбалансированную модель с приемлемой обобщающей способностью на новых данных.