Средняя абсолютная ошибка увеличивается с увеличением числа коррелирующих факторов.

Вопрос или проблема

Я использую Microsoft Azure Machine Learning Studio для прогнозирования цен на фондовом рынке. У нас есть переменные – индексная цена (цель, которую необходимо предсказать), минимальная цена, максимальная цена, даты и дни. Мы используем деление 0.7 и запускаем линейную регрессию. Мы получаем среднюю абсолютную ошибку 109. Затем мы пытаемся добавить больше переменных (макроэкономические факторы, которые положительно влияют на индексные цены), которые коррелируют с целевой переменной и должны улучшить прогнозы – мы обнаруживаем, что средняя абсолютная ошибка увеличивается до 110. Я приложил фотографии для вашей справки. Мы неправильно интерпретируем или что-то не так в том, что мы делаем?
P.S.: Мы также пробовали регрессию с помощью усиленных деревьев, но наблюдается та же проблема, что и описано выше.
Ошибки

Есть ли причина, по которой вы используете MAE вместо MSE? Причина использования MSE заключается в том, что вы получаете параболу, которая будет более точной для алгоритма оптимизации для нахождения локальных минимумов.

Вы проверяли соотношение между предикторами и целевой переменной? Проверяли ли вы многофакторную коллинеарность?

Ответ или решение

В контексте вашего вопроса о ситуации, когда средняя абсолютная ошибка (MAE) увеличивается с добавлением более коррелированных факторов в модели предсказания, стоит рассмотреть несколько ключевых аспектов, которые могут влиять на результаты:

### 1. Понимание модели и MAE
Средняя абсолютная ошибка (MAE) — это метрика, используемая для оценки точности предсказаний. Она показывает среднее значение абсолютных ошибок между предсказанными и фактическими значениями. Однако, в вашем случае, несмотря на добавление коррелированных факторов, MAE увеличивается. Это может указывать на несколько причин.

### 2. Мультиколлинеарность
Одна из основных проблем, которая может возникнуть при увеличении числа независимых переменных, — это мультиколлинеарность. Если новые факторы являются высоко коррелированными с уже имеющимися переменными, это может вызвать «размывание» влияния отдельных переменных на модель, что в итоге приводит к ухудшению качества предсказаний. Рекомендуется провести диагностику мультиколлинеарности, используя такие методы, как расчет коэффициента вариации инфляции (VIF).

### 3. Оценка значимости факторов
Важно проверить, действительно ли добавленные переменные влияют на целевую переменную. Используйте такие методы, как тесты значимости коэффициентов в регрессии, чтобы оценить, имеют ли новые факторы статистически значимое влияние на предполагаемый индекс. Эмпирическая проверка может помочь в исключении незначимых переменных.

### 4. Сложность модели
С добавлением новых переменных растет сложность модели. Если модель слишком сложна по сравнению с количеством данных, это может привести к переобучению. Это означает, что ваша модель может хорошо объяснять данные обучающей выборки, но не сможет обобщать на новых данных. Постарайтесь учитывать баланс между сложностью модели и доступностью данных.

### 5. Альтернативные метрики
Хотя MAE является полезной метрикой, стоит рассмотреть использование других метрик, таких как средняя квадратичная ошибка (MSE) или средняя абсолютная процентная ошибка (MAPE). Множественные метрики могут дать более полное представление о производительности модели.

### 6. Экспериментирование с моделями
Вы упомянули, что пробовали использовать метод бустированных деревьев, но столкнулись с теми же проблемами. Это указывает на то, что проблемы могут быть связаны со структурой данных или конфигурацией моделей. Рассмотрите возможность настройки гиперпараметров моделей и использование методов кросс-валидации для более надежной оценки производительности моделей.

### Заключение
Таким образом, увеличение MAE при добавлении коррелированных факторов может свидетельствовать о материях недостатков в модели, мультиколлинеарности или смещении данных. Рекомендуется провести анализ мультиколлинеарности, проверить значимость добавленных переменных и использовать альтернативные метрики для оценки производительности. Оптимизация модели может потребовать более детального анализа и экспериментов с настройками.