Вероятность возникновения события во времени

Вопрос или проблема

Мне нужно ответить на следующий вопрос:

Какова вероятность того, что событие 1 произойдет в какой-то момент времени для новой выборки? В какой момент времени это более вероятно?

1: событие произошло в конкретный момент времени,
0: событие не произошло,
-1: произошло противоположное запрашиваемому событию (тоже не интересно).

Для каждой выборки замеряются 6 моментов времени. Предположим, что это, например, каждую неделю (1н, 2н, 3н, 4н, 5н, 6н).

выборка 1 = (0, 0, 0, 0, 0, 1)
выборка 2 = (0, 0, 1, 1, 1, 1)
выборка 3 = (0, 0, 0, 0, 1, 1)
выборка 4 = (0, 0, 0, 0, 0, 1)
выборка 5 = (0, 0, 0, 1, 1, 1)
выборка 6 = (0, 0, 0, 0, 0, 1)
выборка 7 = (0, -1, -1, -1, -1, 0)
выборка 8 = (0, 0, 0, 0, 0, 0)

Какая модель будет подходящей для этого?

По всей видимости, также есть “шумные” выборки, где мы не наблюдаем событие (выборки 7, 8).

Это может быть типичной задачей предсказания временных рядов и/или моделирования последовательностей. Плохая новость заключается в том, что 6 временных меток достаточно мало, и вам может быть сложнее моделировать по сравнению с длинными последовательностями.

Простая статистическая аналитика (и не обязательно модель машинного обучения) заключается на самом деле в расчете вероятностей. У вас есть 6 временных меток ($T$), 3 значения ($X$) и $N$ выборок. Вы можете получить общее представление, рассчитывая все $P(X_{i}=x|T=t, X_{i-1}=y)$, где $x,y\in X$ (т.е. $x$ и $y$ принимают значения -1, 0 и 1).

Это довольно Марковский, поскольку я учитывал только предыдущее событие, ответственное за предсказание текущего события. Модели последовательностей могут изучать историю, что дает более целостные и надежные результаты.

PS: Ждите лучших решений. Это всего лишь начальная идея.

Ответ или решение

Вероятность возникновения события во временном контексте

В данной задаче рассматривается вероятность возникновения события, обозначаемого как "1", на определённом временном интервале для новых выборок. Мы имеем набор данных, в котором для каждых шестинедельных наблюдений фиксируется, произошло ли событие (1), не произошло (0), или произошло неинтересующее событие (-1). Необходимо проанализировать эти данные для определения вероятности возникновения события за заданный период времени и выявления временной точки, наиболее подверженной такому событию.

Анализ данных

Расмотрим предоставленные выборки:

  • Выборка 1: (0, 0, 0, 0, 0, 1) – событие произошло на последнем временном пункте.
  • Выборка 2: (0, 0, 1, 1, 1, 1) – событие возникновения наблюдается с третьего временного пункта и продолжается до конца.
  • Выборка 3: (0, 0, 0, 0, 1, 1) – событие произошло на пятом и шестом пунктах.
  • Выборка 4: (0, 0, 0, 0, 0, 1) – событие фиксируется только на последнем временном пункте.
  • Выборка 5: (0, 0, 0, 1, 1, 1) – событие начало возникать с четвёртого пункта.
  • Выборка 6: (0, 0, 0, 0, 0, 1) – аналогично выборам 1 и 4.
  • Выборка 7: (0, -1, -1, -1, -1, 0) – событие не произошло.
  • Выборка 8: (0, 0, 0, 0, 0, 0) – событие также не наблюдается.

Вероятностный подход

Для каждой временной точки можно вычислить вероятность возникновения события, опираясь на наблюдаемые данные:

  • Всего у нас 8 выборок.
  • По количеству "1" на каждой временной точке можно получить общее, а затем разделить на общее число выборок.

Исключая выборки 7 и 8 — которые не представляют интереса, поскольку они не содержат ни "1", — мы имеем 6 полезных выборок:

  • Для первой временной точки (1w): (0, 0, 0, 0, 0, 0) — 0/6 = 0%.
  • Для второй временной точки (2w): (0, 0, 0, 0, 0, 0) — 0/6 = 0%.
  • Для третьей временной точки (3w): (0, 1, 1, 0, 0, 0) — 1/6 = 16.67%.
  • Для четвёртой временной точки (4w): (0, 1, 0, 0, 0, 0) — 1/6 = 16.67%.
  • Для пятой временной точки (5w): (0, 1, 1, 0, 0, 0) — 3/6 = 50%.
  • Для шестой временной точки (6w): (1, 1, 1, 1, 1, 1) — 6/6 = 100%.

Модельная структура

Для моделирования данных можно использовать Марковские цепи. Это позволяет рассмотреть предшествующие состояния при прогнозировании появления события. Каждый временной интервал можно рассматривать как состояние, переходы между состояниями будут определяться вероятностями возникновения события, исходя из предыдущих наблюдений.

Заключение

Вероятность возникновения события "1" на временных точках анализа колеблется с нуля до 100%. Наиболее вероятное время возникновения – шестая временная точка, где событие наблюдается в 100% случаев среди анализируемых выборок. Использование Марковских цепей может значительно повысить точность прогнозирования при условии достаточной длины временной последовательности, что может быть недостатком в данном случае из-за ограничения на 6 временных точек.

Таким образом, более тщательное изучение долгосрочных трендов, возможно, поможет усовершенствовать подход к прогнозированию в будущем.

Оцените материал
Добавить комментарий

Капча загружается...