Вопрос или проблема
Предположим, у меня есть записанные данные с 1/1/2000 по 30/12/2018; это может быть набор данных цен на акции или курсов (процентные ставки, валютные курсы, занятость и т.д.)
И я хочу предсказать цену/курс на заданную дату (с 1/1/2015 по 30/12/2018). Я прочитал несколько статей и изучил некоторые примеры, и заметил, что почти во всех из них используются только 2 переменные Дата и целевая переменная (переменная, для которой мы хотим предсказать цену/курс)
, преобразованные во временные ряды.
Мой вопрос: это единственный подход? Что насчет других переменных, разве они не повлияют на мое предсказание?
Когда дело касается таких случаев (работы с временным рядом), как я могу использовать другие переменные для предсказания курса/цены
?
Большинство из этих самопровозглашённых учебников по науке о данных по предсказанию цен на фондовом рынке неправильно преподаются. Я недавно это выяснил, просмотрев это видео на YouTube -> https://www.youtube.com/watch?v=xOcyV5Q2G5I. Есть гораздо более важные переменные, которые необходимы для предсказания цены акций, чем предыдущая цена, например, объем торгов и т. д.
Ответ или решение
Вопрос о том, является ли использование только двух переменных — даты и целевой переменной, такой как цена или ставка, — единственным методом работы с временными рядами, заслуживает более глубокого рассмотрения. При прогнозировании временных рядов действительно существует множество подходов, и использование дополнительных переменных может значительно улучшить модели прогнозирования.
Теоретическая часть
Временные ряды — это последовательность данных, записанных в определенные промежутки времени. Традиционно анализ временных рядов фокусировался на выявлении паттернов и трендов в данных. Классический подход заключается в использовании отдельных значений ряда во времени, таких как цена акций в каждый конкретный день, для построения модели прогнозирования. Такие модели, как ARIMA (AutoRegressive Integrated Moving Average), часто применяются для этой задачи и ограничиваются использованием одной переменной.
Однако на практике временные ряды часто зависят от множества факторов. Например, цена акций может не только зависеть от исторических цен, но и от других переменных, таких как объем торгов, макроэкономические показатели, новости о компании и общемировые события. Во многих случаях статические модели, деятельность которых основана исключительно на исторических данных, могут упускать сложные взаимосвязи между различными переменными.
Примеры
Рассмотрим, к примеру, задачу прогнозирования цен на акции. Если анализировать цену акций исключительно на основе исторического графика, можно упустить множество других факторов. В частности, изменения в объеме торгов могут указывать на изменяющуюся ликвидность, что может повлиять на будущую цену. Другие макроэкономические индикаторы, такие как процентные ставки, данные о безработице или изменения в валютных курсах, также могут оказывать косвенное влияние на рыночные тенденции.
Одним из возможных решений является создание модели на основе нескольких источников данных. В такие модели могут входить как числовые данные (например, объем торговли, рыночная капитализация), так и категориальные данные (например, новости, касающиеся бизнеса). Другим примером может быть использование искусственных нейронных сетей, которые способны учитывать не только временную зависимость данных, но и перекрестные влияния различных факторов.
Применение
Чтобы более эффективно использовать переменные помимо даты и целевой переменной в анализе временных рядов, можно применить мультивариантные методы прогнозирования. Один из наиболее популярных подходов — это построение мультивариантной модели, которая включает в себя все доступные переменные. Примеры таких моделей включают в себя:
-
Мультивариантные временные ряды: Эти модели работают с несколькими временными рядами одновременно. Примером может служить VAR (Vector AutoRegression), который используется для моделирования взаимозависимых временных рядов.
-
Машинное обучение: Модели машинного обучения, такие как Random Forest, XGBoost, и нейронные сети (например, LSTM — Long Short-Term Memory), могут использовать множество независимых переменных. Эти модели особенно эффективны при работе с большими наборами данных, где необходимо учитывать нелинейные связи между переменными.
-
Гибридные модели: Комбинация традиционных методов временных рядов и машинного обучения. Например, можно использовать ARIMA для выявления периодических составляющих, а более сложные модели для предсказания остаточных значений.
Настройка таких моделей требует аккуратной работы с данными и анализа их значимости. Модели должны хорошо справляться с предсказанием не только исторических трендов, но и учитывать потенциальные изменения структуры данных.
Заключение
Таким образом, хотя использование только даты и целевой переменной является классическим подходом при анализе временных рядов, это далеко не единственный метод. Включение дополнительных переменных и комплексных моделей может значительно улучшить точность предсказания, учитывая больше факторов, влияющих на целевую переменную. Главной задачей является правильный отбор тех переменных, которые имеют значительное влияние на результаты, и их интеграция в модель, что требует как технических знаний, так и бизнес-интуиции.