Вопрос или проблема
Мне удалось построить несколько моделей линейной регрессии, которые могут достаточно хорошо прогнозировать прочность материала: минимальное RMSE составляет 17.95 с использованием 11 признаков, которые я выбрал из 159 оригинальных признаков. Данные распределены со средним значением 234.4 и стандартным отклонением 19.9. Я работаю в Orange3.
Используя только признак с самым высоким весом (вес 8.013), модель вычисляет RMSE равным 18.767. Если я использую только признак с самым низким весом (вес 0.051), RMSE составляет 20.007. Разница составляет 1.24, или примерно 7% от “хорошего” RMSE.
Почему разница не больше? Я бы думал, что использование только признака с почти нулевым весом заставит модель предсказать совершенно неправильное значение для целевой переменной.
Входные данные — 3700 экземпляров (очищенные и корректные). Я использую 10-кратную кросс-валидацию.
RMSE немного превышает стандартное отклонение данных — это просто случайность или в чем причина такой низкой разницы в RMSE?
Возможно, ваши признаки с самым высоким и самым низким весом сильно коррелированы, и поэтому разница в значениях RMSE невелика. Оба признака являются хорошими предсказателями целевой переменной, но один из них лучше, что отражается в более высоком весе.
Попробуйте провести полное ранговое PCA, чтобы преобразовать ваши d-мерные (коррелированные признаки) в d-мерные некоррелированные признаки. Выполните регрессию на этих некоррелированных признаках. Это не улучшит вашу модель регрессии, но вы можете начать замечать резкую разницу между RMSE для признаков с самым высоким и самым низким весом.
Ответ или решение
Линейная регрессия используется для предсказания зависимости между переменными, и ваша ситуация предоставляет интересный случай для анализа различий в оценках ошибки. Рассмотрим основные причины, почему линейная регрессия не демонстрирует значительной разницы в RMSE между высоко и низко взвешенными атрибутами.
### Проблема корреляции
Одна из наиболее вероятных причин, по которой различие в RMSE между использованием самого высоковзвешенного (8.013) и самого низковзвешенного (0.051) атрибута оказывается не столь значительным, заключается в возможной корреляции между этими атрибутами. Если низковзвешенный атрибут все еще содержит некоторую полезную информацию, которая может оказывать влияние на предсказания, модель не будет сильно потеряна, даже если его вес невелик.
Корреляция между атрибутами может привести к тому, что два (или более) предикторов взаимозаменяемы в контексте регрессии. Ваша модель может не полагаться на один конкретный атрибут для построения предсказаний, а использовать информацию из нескольких атрибутов, обеспечивая стабильные результаты.
### Модель и распределение данных
Ваша модель демонстрирует минимальный RMSE в 17.95, что очень близко к стандартному отклонению данных (19.90). Это говорит о том, что предсказание модели относительно неплохо. Даже с низковзвешенным атрибутом, если он может участвовать в объяснении значительной части вариативности целевой переменной, он сможет вносить вклад в предсказание, хоть и в меньшей степени по сравнению с высоким атрибутом.
### Общее воздействие информации
Ваша выборка из 3700 экземпляров обеспечивает достаточное количество данных для обучения модель. Если низкоэффективный атрибут пересекается с некоторыми другими важными атрибутами, его полезный вклад в модель может помочь снизить разницу в ошибках. Таким образом, некоторая информация остается доступной модели, даже когда вы работаете с менее значимыми признаками.
### Подход к дальнейшему улучшению
Для более глубокого понимания взаимодействий между атрибутами полезно провести анализ главных компонент (PCA), чтобы проверить корреляцию между выбранными атрибутами. Это поможет вам преобразовать ваши данные в пространство, где атрибуты не будут коррелированы, и в дальнейшем проведет к более точному пониманию веса атрибутов.
### Заключение
Таким образом, отсутствие значительной разницы в RMSE вероятно связано с корреляцией между атрибутами и тем, что каждый из них вносит некоторый вклад в модель. Работа с атрибутами с использованием PCA и других методов может лучше прояснить их влияние на итоговые предсказания, а также выявить ключевые переменные для повышения качества моделей в будущем.