Оценка регрессионных моделей с различными показателями (MSE, дисперсия, VAF и т.д.)

Вопрос или проблема

При сравнении нескольких регрессионных моделей с точки зрения качества, кажется, что большинство согласны с MSE. Есть также статьи, сравнивающие “дисперсию” и “дисперсию, объясненную регрессией (VAF)”. Однако, кажется, существует противоречивое мнение о дисперсии (R^2). Следует ли ее, тем не менее, сравнивать в научной статье?

$$
VAF_i = \bigg[
1-\frac{\text{var}\big(y_i – \hat y_i\big)}{\text{var}\big(y_i\big)}
\bigg] \times 100\%
$$

И что говорит VAF? Является ли VAF все еще хорошей мерой для регрессионных моделей?

Доля объясненной регрессией дисперсии (VAF) не имеет смысла в регрессии.

VAF может быть увеличена за счет распределения независимых переменных, что ничего не говорит о том, насколько хороша регрессионная модель.

$R^2$ имеет четкую интерпретацию как доля объясненной дисперсии, за исключением случаев, когда это не так в нелинейных моделях, как многие распространенные модели машинного обучения. Однако, $R^2$ в некотором смысле эквивалентен квадратической потере, поэтому, если вы комфортно оцениваете свою модель, используя меру квадратической потери, такую как $MSE = \frac{1}{n}\sum_i(y_i-\hat y_i)^2$ или $RMSE = \sqrt{MSE}$, вам должно быть комфортно использовать $R^2$.

Одним из распространенных критических замечаний к $R^2$ является то, что его можно произвольно повысить, вплоть до $1$. Это неверно, что $R^2$ может быть увеличен до $1$ в каждом случае, поскольку два наблюдения могут иметь одни и те же признаки, но разное значение $y$, однако $R^2$ вполне может быть увеличен достаточно высоко просто за счет добавления большего количества признаков, независимо от их связи с результатом.

Однако то же самое верно и для $MSE$. Просто посмотрите на уравнение.

$$
R^2 = 1 – \dfrac{\sum_i \big(y_i – \hat y_i\big)^2}
{\sum_i \big(y_i – \bar y\big)^2}\\
=
1 – \dfrac{n \times MSE}
{\sum_i \big(y_i – \bar y\big)^2}\\
=
1 – \dfrac{n \times \big(RMSE\big)^2}
{\sum_i \big(y_i – \bar y\big)^2}
$$

Следовательно, любая критика $R^2$ также должна применяться к $MSE$ и $RMSE$.

Тем не менее, вполне допустимо оценивать $R^2$, $MSE$ и $RMSE$ на данных вне выборки. Тогда критика о том, что вы можете повысить производительность, включив нерелевантные признаки, не применима; ваша производительность на данных вне выборки пострадает, если вы включите слишком много нерелевантных признаков. Уравнения для $MSE$ и $RMSE$ на данных вне выборки точно такие же, как для данных внутри выборки, но $R^2$ немного изменяется.

$$
R^2_{out} = 1 – \dfrac{\sum_i \big(y_i – \hat y_i\big)^2}
{\sum_i \big(y_i – \bar y_{in}\big)^2}
$$

Вы используете среднее по внутри выборки, чтобы сохранить дух оценки вашей производительности по сравнению с наивной моделью, которая всегда угадывает наблюдаемое среднее.

Даже в случае линейной регрессии методом наименьших квадратов (OLS), $R^2_{out}$ теряет интерпретацию “доли объясненной дисперсии”. Давайте рассмотрим пример, где тот $Other$ термин в связанном посте на Cross Validated не равен нулю.

set.seed(2021)
N <- 100
other <- function(y, preds, ybar){
  
  return(
  
    sum(
      (y - preds)
      *
      (preds - ybar)
    )  
  )
}
x_all <- runif(N)
y_all <- 7*x_all + rnorm(N)
x_in <- x_all[1:80]
x_out <- x_all[81:100]
y_in <- y_all[1:80]
y_out <- y_all[81:100]
L <- lm(y_in ~ x_in)
preds_in <- predict(L, data.frame(x_in = x_in))
preds_out <- predict(L, data.frame(x_in = x_out))
other_in <- other(y_in, preds_in, mean(y_in))
other_out <- other(y_out, preds_out, mean(y_in))
other_in
other_out

Я получил для данных внутри выборки $Other = 1.3\times 10^{-13}$, что достаточно близко к $0$ для арифметических вычислений на компьютере, но для данных вне выборки $Other = -3.3$.

Ответ или решение

Оценка моделей регрессии: MSE, дисперсия и VAF

Когда речь идет о сравнении моделей регрессии, выбор мер для оценки качества модели играет существенную роль. Рассмотрим наиболее распространенные из них: среднеквадратичная ошибка (MSE), дисперсия, доля объясненной вариации (VAF), и коэффициент детерминации (R²), а также их применимость в научных статьях и практических задачах.

Среднеквадратичная ошибка (MSE)

Среднеквадратичная ошибка (MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i – \hat{y}_i)^2) является одной из популярных метрик, измеряющей среднее значение квадратов ошибок между реальными значениями (y_i) и предсказанными (\hat{y}_i). Ее популярность обусловлена простотой интерпретации и универсальностью для различных типов моделей.

Однако, MSE имеет свои ограничения. Например, она чувствительна к выбросам, что может существенно исказить результаты в отдельных случаях. Кроме того, MSE не учитывает величину наблюдаемых значений, что часто важно в контексте бизнес-задач.

Дисперсия и коэффициент детерминации (R²)

Коэффициент детерминации (R^2) выражает долю дисперсии зависимой переменной, объясняемой независимыми переменными. Это свойство делает (R^2) удобным для оценки линейных регрессионных моделей. Тем не менее, его применение в нелинейных моделях может дать некорректные или трудноинтерпретируемые результаты, так как (R^2) не всегда сохраняет свою интерпретацию доли объясненной дисперсии.

Кроме того, (R^2) имеет тенденцию увеличиваться с добавлением новых предикторов, даже если они не влияют на целевую переменную, что в некоторых случаях может привести к завышению точности модели. Поэтому использование (R^2) для сравнения моделей в научных исследованиях должно сопровождаться осторожностью и пониманием структуры модели.

Доля объясненной вариации (VAF)

Доля объясненной вариации (VAF) определяется как:

[ VAF = \left[ 1 – \frac{\text{var}(y_i – \hat{y}_i)}{\text{var}(y_i)} \right] \times 100\% ]

VAF измеряет насколько хорошо модель объясняет вариацию в данных. Однако, как отмечается в литературе, его значение может быть зависимо от распределения независимых переменных. Это часто рассматривается как недостаток, так как высокий VAF может не всегда означать высокое качество модели.

Рекомендации по применению

При выборе метрик для оценки моделей рекомендуется учитывать следующие аспекты:

  1. Тип модели: Оценочные метрики должны выбираться с учетом особенностей модели (линейная или нелинейная).
  2. Цель исследования: Важно понимать, что именно хотят оценить — точность, объяснительную способность или устойчивость к выбросам.
  3. Контекст данных: Формат и характер данных может диктовать использование определенных метрик.

Для научных публикаций важно объяснять выбор метрик и использовать их в сочетании с другими индикаторами качества модели, такими как валидация на независимой выборке, чтобы обеспечить комплексную оценку.

Таким образом, использование MSE, R² и VAF может быть оправдано и полезно в соответствии с контекстом задачи и характеристиками исследуемых данных. Oбобщающие метрики должны быть рассмотрены в совокупности с другими показателями для получения целостного представления о качестве модели.

Оцените материал
Добавить комментарий

Капча загружается...