Вопрос или проблема
У меня есть одна папка, в которой содержится много файлов CSV, размеры которых составляют 24×25. Каждый файл CSV представляет собой данные за один день.
Я выполняю следующую задачу:
Случай 1: Рассмотрим следующий наивный классификатор: Предположение для любого дня просто соответствует данным предыдущего дня. Я имею в виду, просто предположить, что день2 такой же, как день1, предположить, что день3 такой же, как день2, предположить, что день4 такой же, как день3,…, предположить, что день91 такой же, как день90. Так что после этого мы получаем данные за 90 дней и 90 mse, одно mse мы получаем из одного дня.
Случай 2: Здесь я пытаюсь предсказать день4, используя обучающие данные дня1, дня2, дня3, предсказать день5, используя обучающие данные дня2, дня3, дня4, предсказать день6, используя обучающие данные дня3, дня4, дня5,…, предсказать день93, используя обучающие данные дня90, дня91, дня92. Здесь мы получаем 90 предсказанных файлов, что означает в общей сложности 90 дней предсказанных данных. Здесь я использовал регрессию Риджа, линейную регрессию и модель LSTM. И у нас есть 90 mse для каждой модели, одно mse для каждого дня.
Также обратите внимание, что для обоих случаев я использовал MinMaxScaler
, который нормализует данные до определенного диапазона, обычно между 0 и 1.
Мой график для обоих случаев:
Мой вопрос: что вы можете сказать о поведении алгоритмов LSTM и наивного классификатора по сравнению с обычными регрессионными моделями?
Ответ или решение
Сравнение моделей регрессии в контексте предсказания временных рядов
В данной ситуации мы рассматриваем две основные стратегии предсказания временных рядов на основе данных, представленных в CSV-файлах, каждый из которых содержит информацию за один день в формате 24×25. Ваша задача распределяется на два случая: использование наивного классификатора и применение более сложных моделей регрессии и LSTM. Давайте глубже проанализируем поведение каждого из этих подходов.
Случай 1: Наивный классификатор
Наивный классификатор предполагает, что данные за текущий день будут идентичны данным за предыдущий день. Этот метод основывается на предположении, что изменения данных несущественны или могут быть игнорированы. Такой подход может быть полезен для простых анализов, однако его недостатки очевидны:
-
Отсутствие предсказательной силы: Наивная модель не учитывает тренды и сезонные колебания, которые могут значительно влиять на данные. Поэтому, скорее всего, вы получите высокое среднее квадратичное отклонение (MSE), поскольку модель не способна отразить динамику изменений.
-
Сложности при анализе: Такой метод не предоставляет информации о корреляциях и взаимосвязях между временными рядами, что ограничивает его возможности для глубокого анализа данных.
-
Трудности с обнаружением аномалий: Поскольку модель не реагирует на изменения в данных, она не может обнаружить отклонения, что делает её менее полезной для практического применения.
Случай 2: Регрессионные модели и LSTM
В этом сценарии вы используете Ridge-регрессию, линейную регрессию и LSTM, чтобы предсказывать данные за будущие дни, используя информацию за предыдущие дни.
-
Регрессионные модели (Ridge и линейная регрессия):
- Эти модели эффективно работают для данных с линейной зависимостью. Ridge-регрессия, в частности, включает регуляризацию, что помогает избежать переобучения и повышает устойчивость модели к шуму в данных.
- Однако стоит отметить, что регрессионные модели предполагают линейную связь. Если данные имеют сложные зависимости или нелинейные отношения, производительность этих моделей может быть ограниченной.
-
Модель LSTM:
- LSTM (Long Short-Term Memory) представляет собой тип рекуррентной нейронной сети, специально разработанный для обработки временных рядов. Эта модель способна запоминать и учитывать долгосрочные зависимости, что делает её очень эффективной в задачах прогнозирования последовательностей.
- LSTM может адаптироваться к изменениям в данных, что позволяет ей фиксировать как короткие, так и долгосрочные изменения и тренды. Это является значительным преимуществом по сравнению с более простыми регрессионными моделями.
Сравнение и выводы
-
Предсказательная мощь: В то время как наивная модель демонстрирует предсказания, основанные на статичном подходе, регрессионные модели и LSTM используют динамические данные для улучшения точности прогноза.
-
Сложность и вычислительные затраты: Наивный классификатор потребует минимальных вычислительных ресурсов, в то время как LSTM и даже регрессионные модели требуют больше вычислительных мощностей и время для обучения.
-
Применимость: Наивный классификатор может быть использован только в очень специфичных сценариях, в то время как LSTM и регрессионные модели могут быть адаптированы для широкого спектра приложений, включая финансовое прогнозирование, анализ тенденций и управление запасами.
Заключение
Сравнение различных подходов при анализе временных рядов показывает, что использование LSTM и регрессионных моделей обеспечивает значительно более высокую точность и понимание данных, чем наивный классификатор. Важно применять подход, соответствующий степени сложности и динамике ваших данных, чтобы извлечь наиболее полезную информацию из ваших временных рядов.