Прогнозирование разреженных временных рядов высокой частоты на Python.

Question 1

У меня есть набор данных о нескольких станциях зарядки электромобилей (с частотой 10 минут) в течение 1 года. Эти данные содержат много нулей, поскольку нет непрерывного потока автомобилей для зарядки, а есть только периодические события зарядки в виде пиков (например, с 7 до 9 утра, когда люди приезжают на работу, кажется частым временным интервалом для зарядки). Я также объединил данные о погоде и рабочем дне/празднике в качестве характеристик.

Теперь я хочу предсказать спрос на электроэнергию на 6 часов вперед. Пока что я пытался использовать SARIMA, но получил ужасные результаты, так как алгоритм, кажется, запутался из-за редких данных.

Я пробовал разные преобразования (Box Cox, нормализация, стандартизация), дифференцирование, auto-arima для оптимальных параметров, но пока безуспешно.

Я готов попробовать различные алгоритмы машинного обучения, а также статистические алгоритмы. У кого-то есть рекомендации о том, что я могу сделать, чтобы получить умеренно точный прогноз с разреженным набором данных? (Python)

Question 2

Вот что вы можете попробовать сделать:

Понять форму ваших данных.
Разделите временной ряд по дням. Сравните временные ряды за разные дни.
Постройте график с временем на оси X и целевой переменной (для прогноза) на оси Y. Выглядят ли формы похожими или разными? Можете ли вы на глаз определить N-различных форм, которые принимает кривая?
Выясните “среднее значение за день” для целевой переменной, чтобы прогнозировать. Постройте график среднего значения в течение года. Видите ли вы тренд или сезонность? Можете ли вы использовать SARIMA или другие связанные методы для моделирования меняющегося среднего? Если да, то это само по себе может быть достижением. Повторите ту же задачу для “дневной дисперсии”. Прогнозирование дневного среднего/дневной дисперсии “может” быть более простой задачей, чем прогнозирование всего временного ряда.
Нормализуйте свои дневные данные. Вычтите из дневной серии “среднее значение за день” и разделите на “стандартное отклонение за день”. Запустите алгоритм кластеризации (возможно, K-Means) на своих дневных временных рядах. Используйте метод локтя для определения наилучшего количества кластеров.
Постройте график центроидов ваших кластеров. Если вам повезет, вы сможете увидеть четкие формы, которые принимает ваша прогностическая кривая.
Используйте номер кластера для маркировки каждого дневного временного ряда. Затем используйте модель классификации для прогнозирования правильного кластера. Характеристиками для модели классификации могут быть “день недели”, “выходной день”, “ожидаемая средняя температура в течение дня” и т.д.
Проверьте, делает ли ваша модель классификации разумно хорошую работу. Если да, вам, вероятно, повезло. Ваша модель классификации присваивает вероятности каждому кластеру. Объедините центроиды кластеров, взвешенные с учетом предсказанных вероятностей, чтобы получить прогнозируемую кривую.
Прогнозируемая кривая из предыдущего шага, вероятно, нормализована из-за этапа подготовки данных (Шаг 3) нормализовал данные. Теперь у вас есть задача преобразовать ее обратно в исходные данные. Если на Шаге 2 вам удалось создать модель, которая хорошо предсказывает “среднее” и “дисперсию” для целевого дня, то вы можете сделать что-то такое простое, как:
Окончательная_Кривая = Нормализованная_Кривая * sqrt(Прогнозируемая_Дисперсия) + Прогнозируемое_Среднее

Дайте знать, если это сработало для вас.

Question 3

Это не стандартная задача временного ряда. То, что вы ищете – это Пуассоновская регрессия. https://en.m.wikipedia.org/wiki/Poisson_regression

Прогнозирование разреженных временных рядов высокой частоты на Python.

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Заключение