Вопрос или проблема
Вопрос: Какой из метрик лучше для сравнения разных моделей: RMSE или R-квадрат?
Я немного поискал, обычно все блоги говорят, что обе метрики объясняют разные идеи: R-квадрат является мерой того, сколько вариации объясняет модель, а RMSE дает представление обaverage ошибке.
Мой ответ: Я думаю, что RMSE может быть использован для сравнения ошибок на обучающей и валидационной выборках, в основном указывая на то, переобучается модель или нет. Это также покажет, как хорошо могут работать две модели на невидимых данных, но R-квадрат только говорит о соответствии модели, не давая информации о том, как модель будет работать на невидимых данных.
Следовательно, RMSE лучше, чем R-квадрат, если вас беспокоит, как ваша модель будет работать с невидимыми или тестовыми данными.
Мой ответ правильный?
(Примечание: Пожалуйста, добавьте любые моменты, если вы знаете о каких-то сценариях, когда R-квадрат лучше, чем RMSE)
Посмотрите на уравнения. Оба являются функциями среднеквадратичной ошибки. Любая модель, которая превосходит одну, будет превосходить и другую. Опасность, которую я вижу у $R^2$, заключается в том, что она заставляет нас думать о оценках в школе, в то время как $F$-оценка $R^2=0.4$ может быть вполне отличной для некоторых моделей, в то время как $A$-оценка $R^2=0.95$ может быть довольно посредственной для некоторых моделей. Кроме того, $R^2$ теряет свою интерпретацию «доля объясненной вариабельности» в случае нелинейных моделей (и даже в некоторых линейных случаях, когда мы делаем что-то другое, кроме обычного наименьших квадратов): https://stats.stackexchange.com/questions/494274/why-does-regularization-wreck-orthogonality-of-predictions-and-residuals-in-line.
$$
SSResiduals = \sum_{i=1}^n \big( y_i – \hat y_i \big)^2\\
RMSE = \sqrt{MSE} = \sqrt{\dfrac{SSResiduals}{n}}\\
R^2 = 1 – \dfrac{SSResiduals}{SSTotal} = 1 – \dfrac{n\times MSE}{SSTotal} = 1 – \dfrac{n\times (RMSE)^2}{SSTotal}
$$
($SSTotal = \sum_{i = 1}^n \big(y_i -\bar y\big)^2$ является свойством набора данных, а не модели, поэтому это в основном коэффициент масштабирования.)
Следовательно, меньшее $RMSE$ синонимично большему $R^2$. Однако $RMSE$ не заставляет вас думать в терминах буквенных оценок в школе.
Ваша интерпретация верна, хотя я не сказал бы, что одна из них «лучше» другой. Они оба служат разным целям.
Первой метрикой, которую я обычно проверяю после построения своей модели, является MAPE. Так я могу почувствовать относительную ошибку по сравнению с фактическими предсказаниями. Хотя проблема с MAPE в том, что, если в ваших предсказаниях есть несколько выбросов, то ваше значение MAPE будет затронуто. Эта проблема существует и для RMSE и может быть устранена с помощью RMSLE (Корень среднеквадратичной логарифмической ошибки).
Суть в том: каждая оценка ошибки будет иметь свои плюсы и минусы, вам нужно решить, какая из них лучше в соответствии с вашими требованиями.
Если вы рассчитали RMSE на тестовом наборе, то это будет лучшей метрикой в оценке того, как ваша модель будет работать при прогнозировании будущих наблюдений, то есть оценивания точности на невидимых наблюдениях.
R-квадрат, как вы указали, это доля вариации в вашем обучающем наборе, которая объясняется соответствием вашей модели. Следовательно, критическое различие между двумя метриками: RMSE обычно рассчитывается на тестовых данных, в то время как R-квадрат рассчитывается на обучающих данных.
Согласно недавним исследованиям, R^2 более информативен, чем многие меры точности. На самом деле, это лучшая мера синхронности между сырыми данными и данными, сгенерированными вашей моделью. Вы можете иметь очень маленький RMSE, однако данные могут иметь противоположную синхронность. Например, если y=a sin(x) — это данные, а модель — y=B cos(x), то возможно подстроить B до тех пор, пока RMSE не станет достаточно маленьким, но R^2 будет почти наверняка отрицательным.
Я рекомендую следующую статью для получения более подробной информации.
Chicco, D., Warrens, M. J., & Jurman, G. (2021). Коэффициент детерминации R-квадрат более информативен, чем SMAPE, MAE, MAPE, MSE и RMSE при оценке регрессионного анализа. Peerj computer science, 7, e623.
Ответ или решение
RMSE vs R-squared: Какой из методов оценки моделей лучше?
При сравнении различных моделей машинного обучения, важно выбрать правильные метрики для оценки их производительности. Среди часто упоминаемых метрик – RMSE (корень из средней квадратичной ошибки) и R-квадрат (коэффициент детерминации). Каждая из этих метрик имеет свои сильные и слабые стороны, и их использование зависит от целей вашего анализа.
Что такое RMSE?
RMSE является мерой, которая quantifies average error модели. Она рассчитывается как корень из средней квадратичной ошибки:
[
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i – \hat{y}_i)^2}
]
где (y_i) – фактические значения, а (\hat{y}_i) – предсказанные значения. Низкое значение RMSE указывает на то, что предсказания модели близки к настоящим значениям.
Преимущества RMSE:
- Четкое представление об ошибке: RMSE дает представление о том, насколько предсказания модели отклоняются от реальных значений. Это позволяет легко интерпретировать результаты.
- Используется для сравнений: RMSE может быть эффективно использован для сравнения моделей между собой, особенно когда речь идет о тестовых данных, что дает понять, как модели будут работать на новых, невидимых данных.
Что такое R-квадрат?
R-квадрат измеряет долю вариации зависимой переменной, которая объясняется независимо переменными в модели. Он рассчитывается по следующей формуле:
[
R^2 = 1 – \frac{SS{residuals}}{SS{total}} = 1 – \frac{n \times MSE}{SS_{total}}
]
где (SS{residuals}) – сумма квадратов ошибок, а (SS{total}) – общая сумма квадратов.
Преимущества R-квадрат:
- Показатель объясненной вариации: R-квадрат позволяет понять, насколько хорошо модель объясняет вариации в данных.
- Комплексная оценка модели: Эта метрика помогает определить, насколько хорошо все предсказанные значения соответствуют фактическим.
Как использовать обе метрики?
Ваше утверждение относительно RMSE как более предпочтительной метрики для оценки производительности модели на тестовых данных вполне обосновано. RMSE отображает фактическую среднюю ошибку и дает ясное представление о реальных предсказаниях. Это особенно важно, когда модель должна работать на новых данных.
С другой стороны, R-квадрат может быть полезен для оценки того, насколько хорошо модель подходит к обучающему набору данных и для проверки общей эффективности модели как инструмента для объяснения данных. Однако, стоит подчеркнуть, что R-квадрат может быть вводящим в заблуждение, особенно в случаях, когда существуют сложные или нелинейные взаимосвязи.
Когда R-квадрат может быть более предпочтительным?
Хотя RMSE дает ясное представление о предсказательной способности модели, существуют сценарии, когда R-квадрат может быть более предпочтителен:
- Сравнение нескольких моделей: Если вы общаетесь о том, насколько хорошо различные модели объясняют вариации в данных, использование R-квадрат будет уместным.
- Оценка адекватности модели: R-квадрат может служить индикатором того, насколько хорошо модель подходит для конкретной аналитической задачи.
Заключение
В итоге, нельзя однозначно сказать, что одна метрика лучше другой; обе метрики имеют свое место в арсенале исследователя данных. RMSE может дать более практическое представление об ошибках предсказания и о производительности модели на новых данных. R-квадрат, в свою очередь, полезен для оценки общей объяснительной силы модели. Выбор между этими метриками должен основываться на специфике вашей задачи и целях анализа.