Когда низкий коэффициент детерминации может создать хорошие предсказательные модели?

Вопрос или проблема

Большинство обсуждений по поводу предсказаний моделей утверждает, что следует сосредоточиться на метриках ошибки, таких как RMSE, MSE, MAE или MAPE. Некоторые даже утверждают, что r-квадрат может быть низким в хорошей модели. Однако я не могу вспомнить ни одной модели, у которой был бы низкий r-квадрат и “хорошие” метрики ошибки. Это возможно? В каких ситуациях?

$R^2$ — это функция (R)MSE, которая сравнивает MSE с эталонным значением, получаемым при предсказании среднего значения каждый раз, независимо от значений признаков.

$$
R^2=1-\left(\dfrac{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\hat y_i
\right)^2
}{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2
}\right) =
1-\left(\dfrac{
N\times MSE
}{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2
}\right)=
1-\left(\dfrac{
N\times \left(RMSE\right)^2
}{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2
}\right)
$$

Если у вас низкое значение $R^2$, это значит, что ваш (R)MSE не намного ниже, чем (R)MSE эталонной модели, которая всегда предсказывает среднее значение. Возможно, что вам не нужно быть значительно лучше этого эталона. Например, если вы можете сделать лишь немного лучше, чем инвестиционный эталон, вы можете оказаться в позиции, чтобы заработать много денег, несмотря на то, что у вас довольно низкое значение $R^2$ или типа $R^2$.

Ответ или решение

Вопрос: Когда низкое значение R-квадрат может создавать хорошие предсказательные модели?

При обсуждении предсказательной мощи моделей, многие эксперты указывают на важность использования метрик ошибок, таких как RMSE (корень среднеквадратичной ошибки), MSE (среднеквадратичная ошибка), MAE (средняя абсолютная ошибка) или MAPE (средняя абсолютная процентная ошибка). Действительно, можно утверждать, что низкое значение R-квадрат не всегда означает плохую модель. В каких случаях это возможно?

Сначала стоит определить значение R-квадрат. Оно измеряет, насколько хорошо модель объясняет вариацию зависимой переменной, и определяется как:

$$
R^2 = 1 – \frac{\sum_{i=1}^N (y_i – \hat{y}i)^2}{\sum{i=1}^N (y_i – \bar{y})^2}
$$

Здесь:

  • ( y_i ) — фактические значения,
  • ( \hat{y}_i ) — предсказанные значения,
  • ( \bar{y} ) — среднее значение зависимой переменной.

Таким образом, низкое значение R-квадрат указывает на то, что среднеквадратичная ошибка вашей модели не намного ниже, чем ошибка базовой модели, которая всегда предсказывает среднее значение.

Тем не менее, ситуации, в которых низкий R-квадрат может сопровождаться хорошими предсказательными качествами модели, включают:

  1. Применение в специфических областях: В определенных областях, таких как финансы или экономика, даже небольшое превышение базовых показателей может быть значительным. Например, если модель предсказывает доходности активов, которые совершенно не коррелируют с рынком, даже лёгкое преодоление доходности индекса может служить достаточной основой для успешной стратегии инвестирования.

  2. Наличие сильного структурного сигнала: В некоторых случаях специфическая структура данных может привести к низкому R-квадрату. Например, в задачах временного прогнозирования или прогнозирования редких событий, где предсказательная точность важнее общей объяснительной силы модели.

  3. Устойчивость к выбросам: Модели, устойчивая к выбросам, могут иметь низкий R-квадрат, но при этом предсказывать основную тенденцию данных с хорошей точностью. Например, модели, используемые в анализе кредитного риска, могут игнорировать экстремальные значения и фокусироваться на пределах, что также может привести к высоким метрикам ошибок.

  4. Генерация более низких ошибок: Одним из примеров, когда низкий R-квадрат не является проблемой, могут быть модели, которые работают на основе сложных алгоритмов машинного обучения, таких как деревья решений или ансамбли. Несмотря на сложность, они могут оценить целевые переменные с низкими показателями ошибок, но не обязательно хорошо объяснять входные данные.

В заключение, низкий R-квадрат не всегда является признаком плохой модели. Важно рассматривать его в контексте других метрик и конкретной предметной области. Следовательно, такая модель может предоставлять полезную и надежную информацию, что делает её незаменимой для практических применений.

Оцените материал
Добавить комментарий

Капча загружается...