Вопрос или проблема
У меня есть набор данных из около 100 изображений. Каждое изображение имеет метку, которая является числовым значением. Модели должны учиться на изображениях, чтобы предсказывать числовые метки. Однако проблема в том, что я не знаю, какая метрика является наилучшей. Например, R² может не изменяться при настройке параметров, в то время как другие метрики, такие как MSE, MAE и т.д., могут значительно изменяться. Но я не уверен, какую метрику выбрать для подгонки модели. Одно нужно отметить о моем наборе данных: шесть целевых значений (меток) имеют большое расстояние между собой и широкий диапазон, охватывающий целевые значения от 50 до 2400.
Ответ или решение
Для оценки результатов регрессионной модели на датасете с широкой разницей между значениями целевых переменных, необходимо учитывать особенности вашего случая, включая широкий диапазон значений от 50 до 2400. Выбор правильного метрика имеет огромное значение для оценки производительности модели и может повлиять на её обучение и предсказания. Рассмотрим несколько метрик, которые могут быть полезными в вашей ситуации:
-
Средняя абсолютная ошибка (MAE):
MAE измеряет среднюю абсолютную разницу между предсказанными и действительными значениями. Поскольку MAE не чувствительна к выбросам, она может быть хорошим выбором для вашего датасета с широким диапазоном значений. Также она более интуитивно понятна, поскольку выражает ошибку в тех же единицах, что и целевые переменные. -
Среднее квадратичное отклонение (MSE):
MSE измеряет среднее значение квадратов ошибок. Эта метрика более чувствительна к большим ошибкам, что в некоторых случаях может быть преимуществом. Однако, если ваши целевые значения имеют значительные выбросы или нестабильные диапазоны, MSE может подвести к неверным выводам. -
Корень из среднеквадратичной ошибки (RMSE):
Это просто корень из MSE и также выражает ошибку в исходных единицах целевых значений. RMSE несколько смягчает проблему выдачи большой оценки в присутствии выбросов, но тем не менее все еще может быть подвержен тому же недостатку, что и MSE. -
R² (коэффициент детерминации):
R² измеряет долю вариации, объясненную моделью. Как вы упомянули, эта метрика может не изменяться значительно в ответ на изменения параметров модели, что делает её менее полезной для ваших целей, особенно когда целевые значения имеют широкий диапазон. -
Скорректированный R²:
Это модификация R², которая учитывает количество предикторов в модели. Он может быть полезен, если вы работаете с множественными предикторами, но в вашем случае он может не добавить достаточной информации.
В вашем конкретном случае, учитывая широкий диапазон значений целевых переменных, рекомендуется использовать MAE или RMSE. MAE будет давать вам более стабильные оценки, не влияя сильно на модели в условиях выбросов. В то же время RMSE может быть полезным для понимания, насколько сильно модель ошибается в своих предсказаниях в среднем, и будет более чувствительным к значительным ошибкам.
Также, вы можете рассмотреть использование гиперпараметрической оптимизации, чтобы найти наилучшие модельные параметры, а затем проверить, какая из метрик лучше всего подходит для вашей конкретной задачи. Наконец, важно не ограничивать себя одной метрикой. Используйте несколько из вышеупомянутых метрик для полного понимания производительности вашей модели.