Вопрос или проблема
Я использую модели машинного обучения для предсказания порядковой переменной (значения: 1, 2, 3, 4 и 5) с использованием 7 различных признаков. Я рассмотрел это как задачу регрессии, поэтому окончательные выводы модели – это непрерывные переменные. Таким образом, график оценки выглядит следующим образом:
Я экспериментирую как с линейными (линейная регрессия, линейные SVM), так и с нелинейными моделями (SVM с RBF, случайные леса, машины градиентного бустинга). Модели обучаются с использованием кросс-валидации (~1600 образцов), и 25% набора данных используется для тестирования (~540 образцов). Я использую R-квадрат и корень средней квадратной ошибки (RSME) для оценки моделей на тестовых образцах. Меня интересует, как найти меру оценки, чтобы сравнить линейные модели с нелинейными.
Это делается для научных исследований. Было отмечено, что R-квадрат может не быть подходящей мерой для нелинейных моделей, и что тест хи-квадрат будет лучшей мерой для определения пригодности.
Проблема в том, что я не уверен, как лучше это сделать. Когда я ищу тест хи-квадрат как меру пригодности, я получаю только примеры, где тест хи-квадрат используется для проверки того, соответствуют ли некоторые категориальные образцы теоретическим ожиданиям, например, здесь. Вот мои размышления/вопросы:
-
Один из способов, который я могу предложить, это классифицировать предсказанные (непрерывные) значения на категории и сравнить предсказанное распределение с фактическим распределением, используя тест хи-квадрат. Но это не имеет большого смысла, т.е. у нас есть модель машинного обучения, которая идеально предсказывает истинные значения 2, 3 и 4, а значения 5 предсказывает как 1, а значения 1 как 5 – тест хи-квадрат, который я предлагаю здесь, отклонит нулевую гипотезу, хотя модель ошибочно предсказывает 2 из 5 значений.
-
Как упоминается в учебном пособии от USC, я мог бы использовать формулу (1) для вычисления значения хи-квадрат, где экспериментально измеренные величины (xi) – это мои истинные значения, а гипотетические значения (mui) – это мои предсказанные значения. Мой вопрос: какова дисперсия? Если мы рассматриваем каждое значение 1, 2, 3, 4 и 5 как отдельную категорию, то дисперсия фактических значений внутри каждой категории равна нулю. Также как вычисляется степень свободы (N-r)?
-
Связанный с утверждением Меня интересует, как найти меру оценки, чтобы сравнить линейные модели с нелинейными, является ли тест хи-квадрат лучшим (или хотя бы хорошим) выбором? Что я видел до сих пор в соревнованиях по машинному обучению по задачам регрессии, используется либо MSE, либо RSME для оценки.
Используйте ваши тестовые данные для сравнения предсказательной производительности каждой модели.
В R вы можете сделать это так:
linear.predictions <- predict(linear.model, newdata = test.data)
nonlinear.predictions <- predict(nonlinear.model, newdata = test.data)
linear.percent.difference <- (test.data$TARGET_VARIABLE -
linear.predictions) /
test.data$TARGET_VARIABLE
nonlinear.percent.difference <- (test.$TARGET_VARIABLE -
nonlinear.predictions) /
test.dtat$TARGET_VARIABLE
linear.grade <- mean(linear.percent.difference)
nonlinear.grade <- mean(nonlinear.percent.difference)
Это довольно простой способ сделать это, но он хорошо работает для меня и понятен, особенно если ваша аудитория будет зевать, как только вы скажете “хи-квадрат…” Проявите креативность!
Вы должны сформулировать вашу проблему как порядковую регрессию. Тогда модель будет предсказывать целевое значение, одно из пяти целых значений.
В результате оценка будет не лучшей, если использовать корень средней квадратной ошибки (RSME). Тест хи-квадрат может быть применен между ожидаемыми и предсказанными количествами для каждого из пяти уровней значений.
Если вы хотите затем добавить другие типы моделей, найдите порядковые аналоги (порядковый SVM или порядковое дерево решений). Тот же тест хи-квадрат на основе количеств может быть применен для поиска наилучшей модели.
Вы можете использовать тест хи-квадрат двумя способами: 1) Для каждой отдельной модели вы можете классифицировать фактическое количество правильных или неправильных предсказаний против ожидаемого количества правильных или неправильных предсказаний. 2) вы можете сравнить несколько моделей вместе под гипотезой, что между ними нет различий, расширив матрицу, чтобы включить модель в качестве строки вместе с количеством правильных/неправильных, фактических против ожидаемых. Существует также тест хи-квадрат для ранжированных данных, который применим к порядковым рангам, как вы и предлагаете, но существует риск, что для некоторых ячеек будет маленькое число.
Ответ или решение
Оценка моделей машинного обучения с использованием критерия хи-квадрат для задач регрессии
В современных исследованиях машинного обучения развитие эффективных моделей для предсказания порядковых переменных становится все более актуальным. Предположим, вы используете модели машинного обучения для прогнозирования порядковых переменных (значения: 1, 2, 3, 4 и 5) на основе 7 различных признаков. Ваша задача была постановлена как задача регрессии, в результате чего модель выдает непрерывные значения. При этом вы уже применяете такие метрики, как R-квадрат и средняя квадратичная ошибка (RMSE), чтобы оценить производительность ваших моделей. Однако вы столкнулись с вопросом, является ли критерий хи-квадрат подходящим инструментом для оценки качества моделей, особенно в сравнении линейных и нелинейных подходов.
Хи-квадрат как метрика оценки
Критерий хи-квадрат часто используется для проверки гипотез о соответствии распределения данных теоретическим ожиданиям. В контексте вашей задачи, вы можете рассмотреть несколько подходов к его применению.
-
Классификация предсказанных значений: Один из возможных подходов – это категоризация предсказанных непрерывных значений в бины (группы) и сравнение распределений предсказанных значений и реальных значений. Тем не менее, вы правильно отметили, что такой подход может привести к неверным интерпретациям. Например, если модель делает предсказания, которые в сумме наиболее близки к реальным значениям, но при этом различные классы (1, 2, 3, 4, 5) предсказываются неверно, то результат теста может быть обманчивым.
-
Применение формулы критерия хи-квадрат: Вы можете использовать значения из наблюдений (реальное значение) против гипотезируемых значений (предсказанных значений) для расчетов. В этом случае, вариация в рамках каждой категории (порядковой метрики) действительно будет равна нулю, что сложным образом сказывается на трактовке результатов. Определение свободных степеней (N-r) в данном случае также может вызвать трудности, так как вы работаете с категориальными переменными, и вам потребуется должным образом учитывать количество значений категорий и образцы внутри них.
-
Сравнение линейных и нелинейных моделей: Ваш интерес в том, чтобы иметь метрику, позволяющую сравнить производительность линейных и нелинейных моделей, совершенно обоснован. В этом контексте, хотя Chi- квадрат может быть полезным, особенно при анализе категориальных абстракций, как я уже упоминал, размеры категорий могут искажать восприятие качества моделей.
Альтернативные методы оценки
Существуют и другие подходы, которые могут оказаться более подходящими для вашей проблемы:
-
Метрики для ординальных задач: Поскольку ваша задача предсказания основана на порядковых переменных, рассмотрите возможность использования метрик, специально предназначенных для таких задач, таких как средняя порядковая ошибка или кросс-энтропия.
-
Использование точности предсказания: Оцените, насколько точно каждая модель предсказывает целевую переменную, вычисляя процент правильно предсказанных значений. Вы можете использовать следующие простые метрики:
точность <- sum(где_прогноз == реальные_значения) / длина(реальные_значения)
-
Графический анализ: Используйте графические методы, такие как матрицы рассеяния, для визуального сравнения фактических и предсказанных значений.
Заключение
Критерий хи-квадрат может быть полезным инструментом для оценки качества моделей, но его применение должно быть проанализировано с осторожностью, особенно при сравнении линейных и нелинейных моделей в задачах машинного обучения. Также стоит учитывать, что для регрессионных задач и, в частности, для порядковых переменных, умные решения могут включать комбинирование различных метрик, чтобы максимально эффективно оценить производительность моделей. Обсуждение и выбор метрик оценки должны отражать конкретные задачи и требования вашего научного исследования.