Вопрос или проблема
У меня есть сомнения относительно использования внешних данных, таких как уровень ВВП, уровень безработицы и т.д., в тестовом наборе для прогнозирования временных рядов. Эти данные являются историческими и могут использоваться вместе с обучающим набором, но как их использовать вместе с тестовым набором? Нужно ли сначала их прогнозировать, а затем использовать с тестовым набором, или существуют более эффективные способы?
Общая идея заключается в том, что вы должны использовать одни и те же данные в ваших обучающих, тестовых и прогнозных наборах. Для экономических данных это может быть непросто:
-
В вашем обучающем наборе вам нужно получить данные, которые были доступны в определенное время. Это может быть сложно, потому что чаще всего такие экономические данные могут пересматриваться задолго после их первого опубликования. Например, в моей стране, я думаю, ВВП может пересматриваться до 3 лет после первоначальной публикации. Так что, например, если у вас есть экземпляр в 2015 году в вашем обучающем/тестовом наборе, вам нужно получить данные, которые были доступны в 2015 году, а не пересмотренные цифры, которые могли появиться до 2018 года.
-
В вашем тестовом наборе и для общего прогноза фактическое значение может быть оценкой того, что происходит в данный момент (nowcasting), поэтому вы должны убедиться, что ваши источники данных согласованы. Техники nowcasting иногда используются для получения текущих значений (например, чтобы получить представление о деятельности гостиничного сектора, можно посмотреть на количество бронирований на booking.com и т.д.). Эти техники совершенно отличаются от тех, которые обычно используются для получения окончательных чисел (агрегация налоговых деклараций). В идеале, вы должны убедиться, что методы согласованы между обучающим, тестовым и прогнозным наборами. Использование других методов для получения данных для прогноза не должно быть полностью исключено, но должно сопровождаться очень строгими предупреждениями.
Любые данные могут использоваться в тестовом наборе, если у данных есть метки.
Внешние данные часто используются в тестовом наборе, чтобы увидеть, насколько хорошо модель может обобщать на невидимые данные.
При работе с прогнозированием временных рядов включение внешних данных в фазы обучения и тестирования может предоставить ценную информацию для улучшения производительности модели. Вот некоторые распространенные подходы:
-
Включение исторических значений в обучающие данные:
- Включите исторические значения внешних факторов (например, уровни ВВП, уровень безработицы) в ваш обучающий набор данных вместе с соответствующей целевой переменной (переменной, которую вы пытаетесь прогнозировать).
- Обучите вашу модель временного ряда на этом расширенном наборе данных, чтобы она могла изучать закономерности и отношения между целевой переменной и внешними факторами.
-
Использование лаговых значений внешних факторов:
- Включите лаговые значения внешних факторов как в обучающие, так и в тестовые наборы данных. Это означает использование прошлых значений внешних факторов в качестве дополнительных входных характеристик для каждого временного шага.
- Например, если вы прогнозируете целевую переменную для времени t, включите значения внешних факторов за времена t-1, t-2 и т.д., как дополнительные входные характеристики.
-
Прогнозирование внешних факторов для тестового набора:
- Обучите отдельную модель для прогнозирования будущих значений внешних факторов для тестового периода. Эта модель может обучаться на исторических данных для этих факторов.
- Используйте предсказанные значения внешних факторов как входные данные для вашей модели временного ряда во время тестирования.
-
Метод скользящего окна:
- Обучите вашу модель на скользящем окне исторических данных, и для каждого прогноза в тестовом наборе переобучайте модель с дополнительными историческими данными до этого момента.
- Таким образом, модель постоянно адаптируется к изменяющимся паттернам как в целевой переменной, так и в внешних факторах.
-
Ансамблевые модели:
- Скомбинируйте предсказания от различных моделей. Например, вы можете иметь одну модель, которая фокусируется на прогнозировании целевой переменной, и другую модель, которая фокусируется на прогнозировании внешних факторов. Скомбинируйте их предсказания для улучшения общей производительности.
-
Инженерия характеристик:
- Создайте новые характеристики на основе внешних данных, которые могут захватить важную информацию для прогнозирования целевой переменной. Например, создать скользящее среднее по уровню ВВП за определенный период.
Ответ или решение
Вопрос использования внешних наборов данных в процессе тестирования временных рядов, особенно таких как темпы роста ВВП или уровень безработицы, требует всестороннего подхода. Давайте разберем теоретическую концепцию, подкрепим ее примерами и рассмотрим практическое применение.
Теория
Временные ряды представляют собой последовательность наблюдений, измеренных через равные промежутки времени. Когда мы говорим о внешних наборах данных, таких как экономические индикаторы, они могут содержать полезную информацию, которая влияет на переменные, которые мы пытаемся предсказать—например, продажи в розничной торговле или уровень инвестиций. Использование таких данных может усилить модель и улучшить ее способность к обобщению на новые, невиданные ранее данные.
Причины использования внешних данных:
-
Улучшение модели: Внешние данные могут предложить больше контекста и объяснить события, которые влияют на поведение переменных временных рядов. Это может улучшить точность модели.
-
Обнаружение новых закономерностей: Такие данные могут содержать информацию о скрытых тенденциях, которые могут быть неочевидны из изначального набора данных.
Проблемы использования внешних данных:
-
Пересмотр исторических данных: Экономические данные часто пересматриваются. Например, в вашем тренировочном наборе данные, доступные на определенный момент времени, могли быть позже исправлены.
-
Предсказание значения внешних данных: Если вы хотите использовать внешние данные в тестовом наборе, вам, возможно, придется предсказывать их значения для будущих периодов.
Примеры
-
Исторические значения: Например, включение исторических значений ВВП может помочь модели определить влияние изменения экономической активности на продажи в определенной индустрии.
-
Предсказание с использованием макроэкономических индикаторов: Экономические индикаторы, такие как инфляция, могут помочь в прогнозировании роста зарплат или расходов.
Применение
Как можно включить внешние наборы данных в тестовые наборы для предсказания временных рядов?
-
Включение исторических значений в обучающие данные:
- Методология: Присоедините исторические данные как дополнительные признаки к вашему тренировочному набору. Это позволит вашей модели "увидеть" корреляцию между внешними данными и вашим целевым временным рядом.
- Пример применения: Если вы прогнозируете объемы продаж, добавьте данные о прошлом уровне безработицы, чтобы модель могла учитывать экономические условия.
-
Использование отложенных значений внешних признаков:
- Методология: Используйте значения экономических индикаторов из прошлого как дополнительные признаки. Например, для предсказания показателя на момент времени t, добавьте информацию о ВВП на моменты t-1, t-2 и так далее.
- Преимущества: Это учитывает временной лаг, через который изменения в экономике влияют на прогнозируемые показатели.
-
Предсказание значений внешних признаков для тестового набора:
- Методология: Создайте отдельную модель, чтобы прогнозировать будущие значения внешних данных. Эти предсказанные значения затем могут быть использованы в качестве входных данных для вашей основной модели временного ряда.
- Предостережение: Использование предсказанных данных повышает уровень неопределенности, особенно если точность этой вспомогательной модели остается под вопросом.
-
Подход скользящего окна:
- Методология: Рассматривайте данные в скользящем окне, регулярно обновляя модель с новыми доступными данными, включая внешние.
- Преимущества: Такой подход помогает модели адаптироваться к изменяющимся тенденциям во времени.
-
Инженерия признаков:
- Методология: Создавайте новые признаки на основе внешних данных. Например, используйте скользящие средние или индексы изменения, чтобы лучше отразить текущие тренды.
- Пример: Создание индекса деловой активности из различных экономических показателей может дать более стабильную картину состояния экономики.
Включение внешних наборов данных в моделей временных рядов требует тщательной подготовки и учета различных факторов, таких как временные лаги и потенциальные ошибки в данных. Однако правильное применение и учет всех аспектов могут значительно улучшить качество модели и степень ее адаптируемости к новым данным.