Вопрос или проблема
Я провел анализ набора данных с помощью модели случайного леса. Результаты следующие. Почему MSE крайне высок, но коэффициент детерминации (r2) показывает точность около 83-84%? Это нормально и связано с набором данных, или это указывает на проблему?
Оценка тестового набора:
_____________________________________
MAE: 226.77896888406613
MSE: 72766.53733725657
RMSE: 269.752733697467
Медиана 246.18115105873255
Максимальная ошибка 594.841276285923
Коэффициент детерминации (R2) 0.8305763821081303
__________________________________
Оценка обучающего набора:
_____________________________________
MAE: 240.49495327574056
MSE: 76745.88393140837
RMSE: 277.0304747341136
Медиана 239.40881247361523
Максимальная ошибка 629.2701141138295
Коэффициент детерминации (R2) 0.8409408669637992
В общем, я бы не стал слишком сильно сосредотачиваться на множестве показателей точности, а лучше придерживаться одного, который соответствует вашей задаче, и сосредоточиться на его настройке.
Однако, просто смотря на ваши числа, не зная вашего набора данных, это не очень эффективно. Но, возможно, позвольте мне дать вам пару советов о том, как проводить оценку:
-
То, что ваше MSE “высокое”, ничего не значит без знания диапазона, в котором находится ваша целевая переменная. Пример: возможно, вы предсказываете что-то, что имеет диапазон 10000. Тогда MSE в 72766 (или скорее RMSE в 246) вполне приемлемо. Если ваш диапазон находится в пределах от 1 до 600 (что может предполагать ваша медиана), то такой RMSE может быть проблематичным.
-
Высокий r2 не означает, что ваша точность составляет 84%. r2 “просто” говорит вам, что у вас существует высокая вариация в ваших предсказаниях и ваших признаках. Высокое значение r2 не обязательно указывает на то, что ваши предсказания или модель “хорошие”.
-
Смотря на то, как различаются ваши обучающий и тестовый набор, я бы сказал, что в терминах обобщения ваша модель может показывать хорошие результаты. То, что ваш обучающий набор немного хуже, в большинстве случаев вполне ожидаемо. Но опять же, я бы был осторожен здесь, не проводя, например, тест валидации.
-
В целом во время оценки модели смотрите на 1-2 показателя точности, которые являются “правильными” для вашей бизнес-задачи, а затем углубляйтесь в ваши реальные предсказания. Где они хороши? Где они плохи? Можете ли вы извлечь дополнительную информацию, которая может привести к созданию дополнительных признаков?
$$
R^2=1-\left(\dfrac{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\hat y_i
\right)^2
}{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2
}\right) =
1-\left(\dfrac{
N\times MSE
}{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2
}\right)
$$
Если MSE высок, но $R^2$ также высок, это означает, что знаменатель должен быть очень высок. На самом деле, мы можем точно рассчитать, что это такое.
$$
1 – R^2 = \left(\dfrac{
N\times MSE
}{
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2
}\right)\\
\overset{N}{\underset{i=1}{\sum}}\left(
y_i-\bar y
\right)^2 = \dfrac{N\times MSE}{1 – R^2}
$$
Когда вы делаете расчет, соблюдается ли это последнее равенство? Если да, то всё в порядке. Если нет, то вы сделали ошибку где-то, либо в проверке этого, либо на более ранних этапах вашей работы.
$R^2$ полезен тем, что позволяет сравнивать с эталонной моделью, которая всегда предсказывает среднее значение, независимо от значений признаков, разумно считать это уровнем производительности, который необходимо преодолеть. Если вы не можете превысить уровень производительности “необходимости”, значит есть проблема. Однако $R^2$ более сложный, чем просто получить $R^2 = 0.83$, так что это похоже на твердую $\text{B}$ в школе. В этом плане так же уместна и точность классификаций. Я подробно объясняю это здесь, и этот расчет имеет те же предостережения, что и предыдущая ссылка для обычного $R^2$.
Ответ или решение
Понимание метрик регрессии является ключевым аспектом в анализе результатов моделей машинного обучения, и ваш вопрос касается аналогии между высокими значениями среднеквадратичной ошибки (MSE) и достаточно высоким коэффициентом детерминации (R²). Давайте разберемся с этой ситуацией поэтапно.
1. Важность оценки метрик
Вы привели результат работы модели случайного леса с набором метрик, среди которых MSE, RMSE и R². Эти метрики необходимо интерпретировать в контексте ваших данных.
- Средняя абсолютная ошибка (MAE): 226.78
- Среднеквадратичная ошибка (MSE): 72766.54
- Корень из среднеквадратичной ошибки (RMSE): 269.75
- Коэффициент детерминации (R²): 0.83-0.84
2. Высокая MSE и высокий R²
Высокая MSE может показаться проблемой, но важный аспект в этом контексте — это масштаб и диапазон ваших зависимых переменных.
-
Контекст метрик: Если ваш целевой признак имеет большой диапазон, например, от 0 до 10000, то RMSE около 270 является вполне приемлемым. Однако, если целевой признак колебался в диапазоне 1-600, такая RMSE может сигнализировать о проблемах с моделью.
-
Интерпретация R²: R² показывает, какая доля вариации зависимой переменной объясняется моделью. Значение 0.83 говорит о том, что 83% вариации объясняется вашими предикторами. Однако это значение не гарантирует, что ваши прогнозы являются точными — важно также, каков абсолютный размер ошибок.
3. Контекст дальнейшей оценки
Рекомендуется:
-
Сравнение ошибок: Посмотрите на абсолютные ошибки (например, на MAE и RMSE) непосредственно в контексте диапазона данных.
-
Дополнительная проверка: Вы можете проверить, действительно ли значения MSE и R² согласуются друг с другом, используя формулу:
[
\sum(y_i – \bar{y})^2 = N \times MSE / (1 – R^2)
]
Если эта формула сработает, это подтвердит правильность расчетов.
- Оценка разницы между обучающей и тестовой выборками: Вероятно, вы не сталкиваетесь с сильным переобучением, если вы видите небольшую разницу между ошибками на обучающей и тестовой выборках.
4. Рекомендации по улучшению модели
-
Углубленный анализ ошибок: Исследуйте наиболее проблемные предсказания. Попробуйте выяснить, где и почему возникают большие ошибки. Это может помочь в выявлении возможных новых признаков.
-
Выбор соответствующих метрик: Фокусируйтесь на одном-двух показателях, которые наиболее важны для вашей задачи. Например, если ваша задача состоит в минимизации крупных ошибок, рассмотрите использование MAE или RMSE как основных метрик.
Заключение
Таким образом, высокая MSE при высоком R² может быть нормальной ситуацией, особенно в зависимости от контекста ваших данных. Обязательно учитывайте диапазон ваших зависимых переменных и проводите дальнейший анализ ошибок, чтобы понять, как улучшить модель и какие признаки могут быть важны для вашего предсказания.