Как найти аномалии в (почти) постоянном потоке данных?

Question 1

У меня есть процесс, который (проще говоря), запускается каждые 5 минут, собирает данные и записывает эти данные в базу данных.

Более подробное объяснение: процесс запускается, собирает данные (что занимает некоторое время) и размещает их в топике kafka (что также занимает некоторое время). Наконец, данные из топика kafka обрабатываются базой данных (что также занимает некоторое время).

Каждая запись в базе данных имеет время вставки, округленное до секунды.

Когда я подсчитываю записи (за 4 часа) по времени вставки, график выглядит так:

Если я подсчитываю записи по интервалам в 5 минут, график выглядит так:

На этом графике видно, что все точки находятся примерно на одном уровне (слегка выше 7000), но точка, отмеченная красной стрелкой, и её сосед слева находятся ниже 7000.
Минимум, среднее и максимум для этих подсчетов за 5 минут:

min     6262
mean    7154
max     7186

Так как точка, отмеченная красной стрелкой, примерно на 12% ниже среднего или максимума, мы можем (возможно) считать её аномалией.
Я знаком с несколькими алгоритмами обнаружения выбросов/аномалий в машинном обучении, но я не уверен, как их использовать, когда новые данные постоянно поступают в базу данных. Что бы я ни делал, я бы хотел избежать использования фиксированных порогов (например, если количество падает на 10% ниже среднего, поднять тревогу).

Например, точка, отмеченная красной стрелкой на графике выше, появилась 2021-01-06 14:30:00, так что через несколько минут я должен был бы поднять тревогу из-за этого.

На данный момент это процедура, которую я придумал в отношении этого процесса сбора данных за 5 минут. Следующее будет выполняться каждые 5 минут:

взять из базы данных последние несколько часов (временное окно) подсчетов за 5 минут (периоды n)
отбросить последний период (n), так как он может быть не завершен (записи еще не в базе данных)
использовать какой-то ML алгоритм (пока не уверен какой) на временном окне (до n-2), чтобы увидеть, является ли подсчет за последний период (n-1) аномалией
если аномалия, поднять тревогу
исключить аномальную точку данных из будущих сборов данных на шаге 1.

Я не уверен, что это хороший подход.
Если кто-то делал что-то подобное раньше с потоком данных, пожалуйста, поделитесь своим опытом в этом вопросе.

Если кому-то нужно увидеть набор данных, вы можете найти его на https://pastebin.com/UaXeEjq9 в формате csv.

Question 2

Попробуйте изучить Алгоритм Надежного Случайного Леса Разрезов (RRCF). Есть реализация на Python, поддерживающая потоковые данные, где вы создаете скользящие окна (называемые “shingles”): https://github.com/kLabUM/rrcf

RRCF строит бинарное дерево решений, случайным образом выбирая число между минимумом и максимумом вашей переменной и разделяя данные там. Если точка оказывается одна после разделения, она становится листом в дереве. Чем больше точка отделена от остальной части данных (то есть чем больше она является выбросом/аномалией), тем вероятнее, что она станет листом выше в дереве. Это хорошо работает с многомерными данными, поскольку алгоритм просто будет случайно разделять все переменные.

Вот видео, которое объясняет RRCF лучше, чем я мог бы в письменном посте: https://youtu.be/yx1vf3uapX8?t=355

Как найти аномалии в (почти) постоянном потоке данных?

Вопрос или проблема

Ответ или решение

Введение в проблему

Предложенное решение

Дополнительные рекомендации