Возможно ли обновить данные и повторно обучить только одну из нескольких серий данных в модели BigQuery?

Question 1

Я создаю нечто очень похожее на этот пример проекта BigQuery ML.

Моя система отличается в двух направлениях:

Во-первых, ей потребуется несколько тысяч временных рядов, поэтому я предпочел бы использовать функцию множественных рядов, чем иметь тысячи отдельных моделей.

Во-вторых, данные более непредсказуемы в долгосрочной перспективе (в отличие от периодических или сезонных), поэтому требуется довольно частая переобучаемость, при этом обнаруживаются только локальные тренды.

Данные на самом деле мониторят напряжения в устройствах на батарейках, которые обычно падают с линейной скоростью, но иногда могут падать намного быстрее в зависимости от использования, а затем заряжаются случайным образом. Я прогнозирую будущее напряжение и предсказываю, когда произойдет критический уровень. Я протестировал одну модель, и предсказания оказались впечатляюще хорошими, ARIMA, похоже, балансирует как долгосрочное типичное поведение, так и локальные недавние изменения, даже несмотря на то, что оно является апериодическим.

Что касается данных, я получаю новые данные от каждого устройства индивидуально с случайными интервалами. Поэтому мне нужно ввести эти новые данные в модель, переобучить её и обновить прогноз для временного ряда этого устройства.

Я могу ограничить количество раз, когда это обновление происходит, например, раз в час, а не делать это на основе событий в реальном времени. Почти в реальном времени было бы отлично, но это не обязательно.

Если бы у меня было несколько тысяч отдельных моделей, это было бы тривиально спроектировать, я бы обновил данные (таблица BigQuery), а затем воссоздал эту конкретную модель, что занимает около 30 секунд.

Однако имея все ряды в одной модели, похоже (из документации), что мне придется выбросить всю модель со всеми тысячами рядов и переобучить всё это. Я в настоящее время не знаю, сколько времени это займет, как это масштабируется, но предполагаю, что это будет значительно дольше и, вероятно, дороже. Все, кроме одного временного ряда, остаются неизменными, поэтому это кажется очень расточительной операцией.

Так есть ли способ переобучить только один временной ряд в модели ARIMA BigQuery?

Я прочитал интересные заметки в разделе ограничений для синтаксиса CREATE MODEL, специфичного для временных рядов, которые обсуждают обработку тысяч рядов.

Я прочитал этот вопрос, но меня не убедила ссылка на использование “горячего старта”, поскольку он не оставляет ссылок на документы, и это не кажется доступным в модели ARIMA.

Я также читал этот вопрос, который больше касается общей необходимости переобучения.

Question 2

После реализации и тренировки этой модели и лучшего понимания деталей, похоже, что короткий ответ – НЕТ, мне придется заново создать и обучить всю модель.

Это занимает около 7 минут, чтобы обучить около 3,500 рядов с примерно 100 точками данных каждый из начального набора данных. Это может увеличиваться по мере добавления данных в рамках инкрементальной ETL без конца.

Возможно ли обновить данные и повторно обучить только одну из нескольких серий данных в модели BigQuery?

Вопрос или проблема

Ответ или решение

Проблема и контекст

Текущие ограничения BigQuery ML

Процесс обновления модели

Альтернативные подходы

Заключение