Нет разницы между несколькими одномоментными прогнозами и многократным прогнозом с LSTM.

Содержание

Вопрос или проблема
Ответ или решение
Теория (Theory)
Пример (Example)
Применение (Application)
Заключение

Вопрос или проблема

Правильно ли, что действительно нет разницы между проведением многошагового прогноза с использованием LSTM и множественными одношаговыми прогнозами, где вы обновляете данные между каждым одношаговым прогнозом?

Я говорю это, потому что LSTM не имеет прямого доступа к предыдущим целевым значениям, а вместо этого имеет состояние памяти, которое относится к предыдущим прогнозируемым целевым значениям.

При использовании множества одношаговых прогнозов идея состоит в том, чтобы обновить модель с данными, относящимися к предыдущему прогнозу перед следующим. Однако, поскольку LSTM не имеет доступа к фактическим целевым значениям данных, относящихся к предыдущему прогнозу, она, по сути, выполняет многошаговый прогноз, потому что принимает во внимание только предыдущие прогнозируемые целевые значения (а не их фактические значения), что именно и включает в себя многошаговый прогноз?

Ближайшее к истинно одношаговому прогнозу (в том, что множественные одношаговые прогнозы отличаются от многошагового прогноза) с помощью LSTM потребовало бы не только обновления данных, но и буквального переобучения LSTM на дополнительных данных между каждым одношаговым прогнозом. Это сделало бы тестирование очень медленным на практике. Это отличается от многих других алгоритмов, которые способны значимо обновлять модель (при том, что модель учитывает целевые значения, а не только прогнозы) с дополнительными данными без переобучения модели.

Пожалуйста, исправьте меня, если я ошибаюсь.

Ответ или решение

Тема использования LSTM (Long Short-Term Memory) в задачах прогнозирования временных рядов представляет значительный интерес, особенно если рассмотреть различия между многошаговым прогнозированием и выполнением серии одношаговых прогнозов с обновлением данных между каждым шагом. Чтобы объяснить это, важно углубиться в природу модели LSTM и ее способность к обучению и прогнозированию временных зависимостей.

Теория (Theory)

LSTM — это разновидность рекуррентной нейронной сети (RNN), специально разработанная для преодоления краткосрочной зависимости других RNN, что позволяет ей более эффективно обучаться на данных с временными зависимостями. Основная особенность LSTM заключается в ее ячейке памяти и механизмах двери: весы управления, входа, выхода и забывания. Эти механизмы позволят LSTM "помнить" или "забывать" информацию о прошлых шагах ввода.

Одношаговые прогнозы (1-step forecasts) и многошаговые прогнозы предлагают разные подходы к временным рядам:

Многошаговые прогнозы (Multistep forecasts) — это когда модель последовательно прогнозирует несколько временных точек вперед, основываясь на текущем состоянии своей памяти, без обновления фактическими данными.
Множественные одношаговые прогнозы отличаются тем, что между каждым шагом модель может обновляться новыми фактическими данными, позволяя ей "учиться" от предыдущих шагов.

Пример (Example)

Представьте, что у вас есть временной ряд, описывающий изменение температуры в регионе за последние несколько дней. Если вы хотите спрогнозировать температуру на следующие 10 дней, у вас есть два основных подхода:

Многошаговое прогнозирование: Вы тренируете вашу LSTM на исторических данных и затем используете ее для предсказания всех последующих 10 дней, основываясь только на прогнозах самой модели.
Множественные одношаговые прогнозы: Вы начинаете с предсказания первого дня, получаете фактическую температуру этого дня и обновляете модель этими новыми фактическими данными, перед тем как переходить к прогнозу следующего дня. Это позволяет вам учитывать реальные данные в коротких интервалах времени.

Применение (Application)

В реальных условиях наиболее значимый выбор между многошаговыми и множественными одношаговыми прогнозами обусловлен следующими факторами:

Точность: Если ваша цель в основном состоит в повышении точности прогнозов, несколько одношаговых прогнозов могут быть предпочтительнее, так как они позволяют корректировать модель новыми фактическими данными, снимая потенциальные ошибки, накопленные при множественных шаговых прогнозах.
Время и вычислительные ресурсы: Регулярное обновление модели во время множественных одношаговых прогнозов может оказаться очень затратным по времени и ресурсам, особенно если обновление подразумевает переобучение модели с учетом новых данных и тренировочного процесса.
Задача: В случаях, когда задача требует быстрой выдачи результата (например, в трейдинговых системах), где небольшое время обработки имеет огромное значение, многошаговое прогнозирование может быть предпочтительнее из-за его более быстрой обработки.

Заключение

В конечном итоге, ваш вывод относительно отсутствия разницы между методами имеет свои основания, если подойти к этой проблеме с точки зрения конечного пользователя, который видит только конечный прогноз. Однако из внутренней архитектуры и механик моделей (особенно LSTM) возникнут различия в их производительности, как уже упоминалось, в точности и вычислительной стоимости. Как было справедливо замечено, модели, которые не позволяют эффективно интегрировать фактические данные без значительной задержки или переобучения, могут влечь за собой применение многошагового подхода лишь на практике в ряде случаев.

Таким образом, процесс выбора между вышеуказанными подходами должен быть исключительно исходя из требований вашего проекта, специфики данных и доступных ресурсов.