Вопрос или проблема
У меня есть ежедневные данные о погоде за почти 50 лет для одной погодной станции, и я хочу предсказать погоду на следующие 100 дней. Я использую Python, и все инструменты, которые я пробовал до сих пор (pmdarima.auto_arima, statsmodels.ARIMA и др.), либо работают бесконечно, либо просто сбивают мой Colab или Jupyter notebook. Какой был бы лучший способ спрогнозировать эти данные с помощью ARIMA?
Графики ACF и PACF также обычно дают такие результаты, которые я не могу интерпретировать в значимые значения p, d, q. Например, тест adf дает p-значение 0.000 для сезонной части, и вот его графики PACF и PACF:
Тест adf предполагает, что сезонная часть стационарна, но график PACF все равно показывает значительные значения лагов даже до 35 (что может сделать работу модели ARIMA более продолжительной). Любой совет был бы оценен.
Предсказание на 100 дней, вероятно, невозможно с помощью SARIMA и одной станции.
Даже современные суперкомпьютеры могут прогнозировать 7 дней с хорошей точностью и до 15 дней со средней точностью (в зависимости от регионов): они не могут прогнозировать 100 дней.
https://www.mprnews.org/story/2020/01/02/forecast-models-keep-hinting-at-subzero-air-ahead
Имея одну станцию, я рекомендую начать с предсказания на 1 или 2 дня.
Если вы хотите предсказывать на более длительный период, вам, вероятно, понадобится больше данных для сопоставления информации, сложные модели и много вычислительной мощности.
Ответ или решение
Создание прогноза погоды на 100 дней вперед с помощью модели SARIMAX в условиях использования данных от одной метеостанции и имеющихся инструментов действительно представляет значительную сложность. Средств, доступных для выполнения прогноза, может оказаться недостаточно для получения высокой точности. Принимая во внимание специфику задачи, ниже приведены рекомендации по применению SARIMAX, оптимизации модели и рассмотрению дополнительных факторов, способных повлиять на точность прогноза.
Анализ данных и предобработка
-
Оценка стационарности: Хотя тест ADF указывает на стационарность сезонной составляющей, визуальный анализ ACF и PACF может создать впечатление значительных лагов. Сохраняя осторожность, важно провести дополнительные тесты для проверки стационарности и необходимости дифференцирования.
-
Дифференцирование и сезонность: При нахождении подходящей модели учитывайте не только обычные значения p, d, q, но и сезонные параметры P, D, Q, чтобы адекватно отразить природные циклы, свойственные погодным данным.
Подбор модели SARIMAX
-
Поиск оптимальных параметров: Поскольку автоподбор параметров (например, с помощью pmdarima.auto_arima) может быть ресурсоёмким и нестабильным, рекомендуется последовательный метод проб и ошибок с ограничением по сезонным и не-сезонным лагам, опираясь на визуальный анализ ACF и PACF.
-
Уменьшение временных сделок: Сфокусируйтесь на создании модели с небольшим горизонтом прогноза (например, 5-10 дней), которая будет более стабильной и точной, и проведите валидацию модели на этих временных интервалах.
Оптимизация и вычислительная эффективность
-
Параллелизация вычислений: Использование мощных серверов или облачных платформ, которые поддерживают параллельные вычисления, может ускорить процесс подбора параметров и тренировки модели. Убедитесь, что в вашем проекте предусмотрено распределение вычислений.
-
Использование смежных данных: Интеграция данных из других метеостанций или источников может повысить точность модели, учитывая влияние региональных факторов.
Долгосрочные прогнозы и дополнительные инструменты
-
Результаты текущих исследований: Долгосрочные прогнозы (на 30, 50 и более дней) могут часто основываться на климатических моделях и больших объёмах данных, что требует интеграции искусственного интеллекта и больших вычислительных мощностей. Обдумайте возможность использования и крупных климатических моделей, таких как GFS или ECMWF, в качестве основы для прогнозов с вашим набором данных как локальной корректировкой.
-
Консультации с экспертами: Взаимодействие с climatologist-ами или специалистами в области моделеклиматических моделей поспособствует улучшенному выбору методов и подходов к прогнозированию.
Таким образом, хотя создание сверхдолгосрочных прогнозов с SARIMAX для одной станции может оказаться сложной задачей, применение эффективных методов анализа, оптимизации параметров и интеграция дополнительных данных может значительно улучшить точность и надёжность получаемых прогнозов.