Вопрос или проблема
У меня формальное образование в области социальных наук, но я новый в области анализа данных. Меня интересует создание предсказательных моделей для применения в социальных науках, в основном (но не только) в экономике.
Меня интересуют следующие виды задач:
- У меня есть данные, которые описывают эволюцию ряда переменных $j \in J$ для ряда “индивидов” $i\in N$ на протяжении временных периодов $t \in \{1\dots, T\}$.
- Например, “индивиды” $i\in N$ могут быть странами, где $j=1$ — ВВП, $j=2$ — инфляция, $j=3$ — процентная ставка, $j=4$ — уровень безработицы и т.д., хотя на практике я бы рассматривал ситуации, где $\#N > 195$ (возможно, $i\in N$ будут регионами или округами, а не странами).
- Как указывает приведенный выше пример, меня интересуют ситуации, где все мои интересующие переменные вероятно взаимосвязаны друг с другом.
- Я ищу модели, которые, основываясь на данных для $t\in \{1,\dots, T\}$, могут прогнозировать совместное движение всех моих интересующих переменных для $t > T$ (по крайней мере, на несколько периодов вперед). В частности, я не хочу предполагать какую-то конкретную будущую ситуацию для всех, кроме одной переменной, чтобы получить предсказание о последней.
- Меня интересует только прогнозирование, а не статистическая интерпретация моей модели.
Будучи подготовленным в качестве экономиста, я знаю, что векторная авторегрессия (VAR) является одним из вариантов таких “полностью эндогенных” моделей. Я пытался узнать чуть больше о прогнозировании и временных рядах (например, прочитал https://otexts.org/fpp2), но до сих пор нашел мало альтернатив VAR. VAR может быть подходящим и, возможно, это единственный вариант на данный момент. Но я хотел бы знать, существуют ли альтернативные методы моделирования, которые можно рассмотреть для подобных задач.
Мои вопросы:
- Каковы некоторые альтернативы VAR для решения таких эндогенных задач прогнозирования (если таковые существуют)?
- Есть ли ресурсы, где применение этих альтернативных техник обсуждается конкретно в этом контексте?
Меня все еще интересуют альтернативы, которые более фундаментально отходят от VAR, но, углубившись немного, я нашел несколько интересных вариантов вокруг VAR, о которых не знал и которые могут быть очень полезными.
Особенно интересуют регуляризованные модели VAR. Применения в макроэкономическом прогнозировании, например, обсуждаются здесь: https://arxiv.org/abs/1508.07497.
Еще лучше, статья сопровождается полной работоспособной R-библиотекой: https://cran.r-project.org/web/packages/BigVAR/index.html, которая описана более подробно здесь: https://arxiv.org/abs/1702.07094.
Некоторые из регуляризованных методов в пакете, такие как VARX-L, позволяют использовать экзогенные переменные. Как я описал в своем ответе, это не то, что меня напрямую интересует. Но VARX-L (и пакет BigVar) только разрешают использование экзогенных переменных и не требуют их включения (экзогенный канал может быть отключен, и модель все еще будет функционировать). Хорошо знать, что я могу начать с полностью эндогенной модели и иметь возможность добавить экзогенные переменные позже, если это будет необходимо.
Ответ или решение
Полностью эндогенные модели для прогнозирования многомерных временных рядов
Ваш интерес к построению предсказательных моделей для социальных наук, особенно в области экономики, представляет собой увлекательную задачу, и я рад помочь вам разобраться в возможностях, выходящих за пределы традиционных векторных авторегрессионных моделей (VAR). Давайте подробно рассмотрим, какие альтернативы существуют, а также ресурсы для изучения этих методов.
1. Альтернативы VAR для прогнозирования эндогенных переменных
Кроме VAR, есть несколько других подходов, которые могут помочь вам создать модели для предсказания совместных колебаний различных переменных:
-
Векторная авторегрессия с структурными переходами (TVP-VAR): Эти модели позволяют коэффициентам VAR изменяться во времени, что может быть полезно в условиях изменений в экономической среде.
-
Обобщенные авторегрессионные модели условной гетероскедастичности (GARCH): Если ваши временные ряды имеют стихийные изменения в волатильности, модели GARCH могут помочь в учете этих аспектов при прогнозировании.
-
Модели многомерных временных рядов на основе машинного обучения:
- Рекуррентные нейронные сети (RNN) и долгосрочные памятипеременные сети (LSTM) могут быть использованы для сложных зависимостей в данных и могут хорошо подходить для временных рядов.
- Градиентный бустинг (например, XGBoost): Это алгоритмические методы, которые могут помочь в моделировании нелинейных отношений между переменными без необходимости предполагать их распределение.
-
Модели структурного векторного авторегрессирования (SVAR): Эти модели позволяют установить структурные связи между переменными, что может быть особенно полезно, когда требуются более четкие интерпретации взаимосвязей.
-
FAVAR (Факторная векторная авторегрессия): Этот подход может быть эффективным для большего количества переменных, комбинируя информацию из множества временных рядов в менее число факторов.
-
Регуляризированные модели VAR: Как вы уже упоминали, регуляризация может помочь избежать проблем с переобучением, особенно при большом числе переменных и небольшом количестве наблюдений. Модели VAR с регуляризацией (например, Lasso или Ridge) позволяют эффективно справляться с высокой размерностью.
2. Ресурсы для изучения альтернативных методов
Для погружения в альтернативные подходы к VAR и методов, упомянутых выше, вы можете использовать следующие ресурсы:
-
Книги и учебные материалы:
- "Applied Econometric Time Series" by Walter Enders – хорошая книга для понимания временных рядов и их приложений в эконометрике.
- "Time Series Analysis" by James D. Hamilton – более глубокий подход к изучению временных рядов, включая широкий спектр моделей.
-
Онлайн-курсы:
- Coursera и edX предлагают курсы по анализу временных рядов и машинному обучению, которые могут быть полезны для понимания различных методов моделирования.
-
Научные статьи:
- Указанные вами статьи, такие как "BigVAR" и другие, являются отличными источниками для понимания передовых методов временных рядов.
- Исследования по применению RNN и LSTM для временных рядов можно найти в журналах по машинному обучению и экономике.
-
Практические пакеты:
- R-пакеты, такие как
forecast
,tsibble
, иBigVAR
, предлагают множество инструментов для работы с временными рядами, и их использование может значительно упростить процесс моделирования и прогнозирования.
- R-пакеты, такие как
Эти альтернативы и ресурсы создадут основу для разработки предсказательных моделей в социальных и экономических исследованиях без необходимости полагаться исключительно на традиционные методы, такие как VAR. Удачи в вашем обучении и исследовании!