Какую предсказательную модель выбрать?

Question 1

Я полностью потерялся, пытаясь выбрать тип предсказательной модели для своей задачи. Это авторегрессионная модель, нелинейная временная серия, марковская цепь или что-то другое? Может кто-то дать мне совет?

78,
18,
51,
89,
19,
43,
62,
28,
94,
49

Предположим, каждый день я получаю 10 данных, и пример был приведён выше. Это случайные числа, сгенерированные двумя устройствами, а именно Устройством A и Устройством B. Каждое из них способно генерировать случайные числа от 0 до 9.

Первое число в данных сгенерировано Устройством A, в то время как второе число сгенерировано Устройством B. Например, для первых данных “78”, “7” было сгенерировано Устройством A, а “8” было сгенерировано Устройством B. Аналогично, для последних данных “49”, “4” было сгенерировано Устройством A, а “9” было сгенерировано Устройством B.

Я хочу предсказать следующую исходную переменную после последнего “49”.

У меня в общей сложности 300 исторических данных за 30 дней.

Из моего начального расследования по 300 данным, каждое устройство, как правило, производит повторяющиеся последовательности. Например, Устройство A будет повторять последовательность “6-2-9-4” (как в последних 4 данных). Это значит, что эта последовательность появилась дважды в 300 исторических данных для Устройства A. В качестве другого примера, последовательность “8-1-9-9” (со 2-го по 5-е данные) в Устройстве B тоже появилась дважды. Каждое из них производит по крайней мере три повторяющиеся последовательности.

Я хотел бы предсказать следующую исходную переменную после последнего “49”. Какая модель более подходящая?

Заранее спасибо!

Question 2

Я предположу, что под “случайными” вы имеете в виду, что числа не следуют никакой определённой математической функции. Если бы они действительно были случайными, то не было бы никакой закономерности, которую можно было бы обнаружить, и не имело бы смысла пытаться что-то предсказать.

Из вашего описания я понимаю следующее:

Значение цифры не имеет никакого числового свойства. В частности, естественный порядок не играет никакой роли. Это указывает на то, что цифры можно считать категориальными переменными.
Данные последовательные (порядок в последовательности цифр имеет значение), но нет задействованного понятия времени.
Видимо, два устройства производят две независимые последовательности. Вам стоит проверить, но если это так, это требует двух различных моделей, по одной для каждого устройства (в противном случае вы должны использовать одну общую модель).

Основываясь на этих наблюдениях, я бы использовал простую последовательную модель, такую как Скрытая марковская модель или Условные случайные поля.

Question 3

То, что вы хотите сделать, это обнаружить закономерности за двумя псевдослучайными генераторами чисел, которые должны быть независимыми и не коррелированными. От самых наивных генераторов до более сложных, они не являются абсолютно случайными. Если бы это было так, было бы невозможно эффективно что-либо предсказать, как указывал Эруан.

Для простого в взломе генератора вы можете посетить:

https://github.com/lemire/crackingxoroshiro128plus

Вот довольно интересная статья на эту тему:

https://arxiv.org/ftp/arxiv/papers/1801/1801.01117.pdf

Какую предсказательную модель выбрать?

Вопрос или проблема

Ответ или решение

Подходящие модели

1. Скрытая модель Маркова (Hidden Markov Model, HMM)

2. Условные случайные поля (Conditional Random Fields, CRF)

3. Модели временных рядов (ARIMA и его производные)

Заключение и рекомендации