Вопрос или проблема
Мне действительно нужно несколько советов и разъяснений по поводу проблемы, с которой я сталкиваюсь. Я работаю с набором данных, содержащим выбросы, и анализирую, как эти выбросы влияют на регрессионные модели. У меня есть три сценария:
Исходный набор данных (с выбросами), усредненный набор данных (2% экстремальных выбросов корректированы), набор данных без выбросов (строки с выбросами удалены). Я обучил модели линейной регрессии и SVM на этих наборах данных. Однако я заметил что-то неожиданное: метрика R² постепенно падает по мере уменьшения выбросов. В частности:
- Исходный набор данных: R² = 0.98,
- Усредненный набор данных: R² = 0.94,
- Без выбросов: R² = 0.89.
Я не совсем понимаю, почему это происходит. По моему опыту, удаление выбросов обычно улучшает работу модели, но в этот раз все наоборот. Может это быть связано с тем, что модель переобучилась на выбросах в исходных данных? Есть ли другие метрики, которые я должен анализировать, чтобы лучше понять это поведение? Просто заметка: размер набора данных 8×8000. Имеет ли это отношение к способу преобразования данных (логарифм + StandardScaler)?
Кроме того, если есть какие-либо статьи IEEE или другие академические работы, которые обсуждают влияние выбросов на регрессию и модели машинного обучения, я был бы очень благодарен за рекомендации.
Любые советы или предложения будут очень полезны. Заранее спасибо!
Если удаление выбросов увеличивает RMSE, но снижает MAE, это может указывать на то, что модель слишком точно подбирала выбросы. Вы также можете проверить распределение остатков до и после удаления выбросов. Если удаление выбросов увеличивает дисперсию остатков, возможно, что выбросы содержат значимую информацию. Также, если ваши данные имеют непостоянную дисперсию, удаление выбросов могло создать дисбаланс.
Ответ или решение
Когда вы столкнулись с явлением, что удаление выбросов приводит к снижению метрики ( R^2 ) модели регрессии, возможно, это кажется противоречащим интуиции. Однако такое поведение модели вполне может иметь объяснение, которое основано как на теоретических основах, так и на особенностях вашего конкретного набора данных и применяемых подходах.
Теория
1. Роль выбросов в модели
Выбросы могут влиять на модель как положительно, так и отрицательно. Высокое значение ( R^2 ) может свидетельствовать о том, что модель очень хорошо подгоняет данные — включая выбросы. Если выбросы имеют значительное влияние и модель "учится" улавливать их, то это может приводить к завышенному ( R^2 ) в "сырых" данных.
2. Переобучение и информация в выбросах
Высокое значение ( R^2 ) не всегда является индикатором хорошей модели. Оно может указывать на переобучение, когда модель "помнит" данные, включая выбросы, вместо того чтобы "учиться" их предсказывать. В некоторых случаях выбросы могут содержать значимую информацию, например, если они отражают редкие, но важные события.
3. Методы обработки выбросов
Различные подходы к обработке выбросов, такие как Winsorization или удаление выбросов, могут влиять на распределение данных и, соответственно, на параметры модели. Преобразования, такие как логарифмирование и стандартизация, могут также сказываться на модели, меняя её восприятие выбросов.
4. Неустойчивость ( R^2 ) и другие метрики
Метрика ( R^2 ) меряет лишь долю изменения в зависимой переменной, объясненную моделью, и может быть ложной обещанием в условиях, когда распределение данных непостоянно. Важно также учитывать другие метрики, такие как RMSE (среднеквадратичная ошибка) и MAE (средняя абсолютная ошибка), для более полного понимания качества модели.
Пример
Представьте себе набор данных, отражающий продажи магазина, где существуют исключительные события, такие как распродажи, ведущие к скачкам продаж. Эти события станут выбросами. Модель, только учитывающая базовые продажи, будет испытывать трудности в предсказании таких всплесков, и игнорирование этих данных, путем их удаления, ухудшит ( R^2 ). Между тем, выбросы действительно полезны для понимания определённых маркетинговых стратегий.
Применение
Исследование и интерпретация данных
-
Анализ выбросов: Разделите выбросы на те, которые представляют шум, и те, которые могут содержать важную информацию.
-
Проверка на неустойчивость: Исследуйте, как остатки вашего анализа меняются при удалении или обработке выбросов. Увеличение разброса остатков может свидетельствовать о потере значимой информации.
-
Переход к устойчивым моделям: Используйте другие модели, менее чувствительные к выбросам, такие как робастные регрессии или методы машинного обучения, устойчивые к выбросам.
Чтение и исследование
Рекомендуется обратиться к работам, исследующим влияние выбросов на регрессионные модели. Например, статьи в IEEE по теоретическим и прикладным аспектам регрессии помогут вам понять специфику обработки выбросов и улучшения моделей.
В заключение, удаление выбросов не всегда является панацеей для улучшения качества модели. Это зависит от содержания выбросов, специфики вашего набора данных и моделей, которые вы применяете. Рекомендуется комплексно подходить к диагностике данных и оценке моделей, с учётом особенностей используемых вами методов предобработки.