Соответствие между прогнозом регрессии и сгенерированными человеком предположениями для верхнего и нижнего порогов.

Вопрос или проблема

У меня есть база данных, содержащая числовые данные о продуктах.

Я использую различные модели для прогнозирования значения признака, например, ёмкости батареи ноутбука, с учётом других признаков, таких как размер, количество ядер процессора и т.д.

Модели, среди которых также простая линейная регрессия, предсказывают значение на основе набора признаков в тестовом наборе. В то же время, в эмпирическом исследовании с участием людей предполагается чтение различных обзоров продуктов с замаскированным значением признака, который нас интересует. Задача участников состоит в том, чтобы оценить нижнюю и верхнюю границы значений, которые они ожидают, исходя из обзора продукта.

Мой вопрос теперь заключается в том, как лучше всего сравнить предположения участников о границах, в которые должно попадать значение, с значением, предсказанным регрессионной моделью. Какова будет статистически обоснованная оценка? Я думал о средней абсолютной дистанции и показателе d Коэна, но не уверен, так как не смог найти ни одной публикации, которая делает нечто подобное.

.

Ответ или решение

Чтобы максимально эффективно сравнить предсказания модели регрессии с оценками участников, важно применить подходы, которые помогут выявить как количественные, так и качественные различия. Рассмотрим несколько ключевых шагов, которые могут быть полезными в вашей ситуации.

Формулирование задачи:

Вашей задачей является сопоставление предсказанных моделью значений (например, емкости аккумулятора) с границами значений, предложенными участниками эксперимента. Регрессионные модели стремятся дать точечное предсказание, тогда как человеческие участники предлагают интервал. Ваша цель — определить, насколько точные те или иные подходы и что может быть улучшено.

Обоснование выбора метрик:

  1. Среднее абсолютное отклонение (Mean Absolute Error, MAE): Это метрика оценит среднее отклонение предсказанной регрессией величины от любой из границ интервала, предложенного людьми. Однако MAE сам по себе не даст понимания, попадает ли вообще предсказание в заданный "человеческий" интервал.

  2. Эффект Коэна (Cohen’s d): Это хороший способ оценить размер эффекта для двух выборок, но в данном случае его использование может быть не столь очевидным, поскольку мы не имеем классической парной выборки. Он применим, если бы мы хотели продемонстрировать различие между средними значениями двух независимых выборок.

  3. Покрытие интервала: Вы можете посчитать долю предсказаний, входящих в указанный участниками интервал. Это даст понимание, сколько процентов предсказаний модели укладываются в субъективные границы участников.

  4. Сравнение средних интервалов: Вы можете воспользоваться статистическими тестами, такими как t-тест, для сравнения средних предсказаний регрессионной модели и средних значений интервалов, предложенных участниками.

  5. Кросс-валидация: Использовать её для проверки модели на устойчивость: насколько предсказания постоянны и надёжны при смене тестовых и обучающих наборов данных.

Оптимизация для поисковых систем (SEO):

Поскольку ваш вопрос касается сопоставления регрессионных предсказаний и человеческих интервалов, важно уделить внимание ключевым фразам, которые могли бы привлечь поисковый трафик. Например: «сравнение предсказаний регрессии и человеческих интервалов», «оценка точности регрессионных моделей», «статистические методы для человеческих оценок и машинных предсказаний» и т.д.

Заключение:

Ваш проект интересен тем, что объединяет количественные модели и качественные человеческие оценки. Используйте подход, который позволяет оценить применимость модели с точки зрения её адаптации к реальным ожиданиям пользователей, и возможно выявить, как модели в будущем могут быть улучшены или откорректированы.

Оцените материал
Добавить комментарий

Капча загружается...