Вопрос или проблема
У меня есть база данных, содержащая числовые данные о продуктах.
Я использую различные модели для прогнозирования значения признака, например, ёмкости батареи ноутбука, с учётом других признаков, таких как размер, количество ядер процессора и т.д.
Модели, среди которых также простая линейная регрессия, предсказывают значение на основе набора признаков в тестовом наборе. В то же время, в эмпирическом исследовании с участием людей предполагается чтение различных обзоров продуктов с замаскированным значением признака, который нас интересует. Задача участников состоит в том, чтобы оценить нижнюю и верхнюю границы значений, которые они ожидают, исходя из обзора продукта.
Мой вопрос теперь заключается в том, как лучше всего сравнить предположения участников о границах, в которые должно попадать значение, с значением, предсказанным регрессионной моделью. Какова будет статистически обоснованная оценка? Я думал о средней абсолютной дистанции и показателе d Коэна, но не уверен, так как не смог найти ни одной публикации, которая делает нечто подобное.
.
Ответ или решение
Чтобы максимально эффективно сравнить предсказания модели регрессии с оценками участников, важно применить подходы, которые помогут выявить как количественные, так и качественные различия. Рассмотрим несколько ключевых шагов, которые могут быть полезными в вашей ситуации.
Формулирование задачи:
Вашей задачей является сопоставление предсказанных моделью значений (например, емкости аккумулятора) с границами значений, предложенными участниками эксперимента. Регрессионные модели стремятся дать точечное предсказание, тогда как человеческие участники предлагают интервал. Ваша цель — определить, насколько точные те или иные подходы и что может быть улучшено.
Обоснование выбора метрик:
-
Среднее абсолютное отклонение (Mean Absolute Error, MAE): Это метрика оценит среднее отклонение предсказанной регрессией величины от любой из границ интервала, предложенного людьми. Однако MAE сам по себе не даст понимания, попадает ли вообще предсказание в заданный "человеческий" интервал.
-
Эффект Коэна (Cohen’s d): Это хороший способ оценить размер эффекта для двух выборок, но в данном случае его использование может быть не столь очевидным, поскольку мы не имеем классической парной выборки. Он применим, если бы мы хотели продемонстрировать различие между средними значениями двух независимых выборок.
-
Покрытие интервала: Вы можете посчитать долю предсказаний, входящих в указанный участниками интервал. Это даст понимание, сколько процентов предсказаний модели укладываются в субъективные границы участников.
-
Сравнение средних интервалов: Вы можете воспользоваться статистическими тестами, такими как t-тест, для сравнения средних предсказаний регрессионной модели и средних значений интервалов, предложенных участниками.
-
Кросс-валидация: Использовать её для проверки модели на устойчивость: насколько предсказания постоянны и надёжны при смене тестовых и обучающих наборов данных.
Оптимизация для поисковых систем (SEO):
Поскольку ваш вопрос касается сопоставления регрессионных предсказаний и человеческих интервалов, важно уделить внимание ключевым фразам, которые могли бы привлечь поисковый трафик. Например: «сравнение предсказаний регрессии и человеческих интервалов», «оценка точности регрессионных моделей», «статистические методы для человеческих оценок и машинных предсказаний» и т.д.
Заключение:
Ваш проект интересен тем, что объединяет количественные модели и качественные человеческие оценки. Используйте подход, который позволяет оценить применимость модели с точки зрения её адаптации к реальным ожиданиям пользователей, и возможно выявить, как модели в будущем могут быть улучшены или откорректированы.