Обнаружение аномалий/выбросов в реальном времени?

Question 1

Мои данные – это статистика использования/игры для игроков конкретной игры. Одна точка данных для пользователя – это агрегированная статистика за одну неделю.

Цель заключается в следующем:

обнаружить, когда аккаунт игрока был украден/взломан/что-то пошло не так.

Так что моя идея заключается в следующем:

для каждого игрока иметь точки данных, каждая из которых представляет одну неделю, а затем проверить, является ли последняя неделя выбросом в кластере. Если да – что-то не так с аккаунтом.

Я хорошо знаком с кластеризацией и такими вещами, как автоэнкодеры, но это кажется не очень подходящим для моей проблемы, потому что:

У меня есть немного образцов для каждого пользователя, т.е. мы можем посмотреть на 25 недель назад, так что только 25 образцов того, что является ‘правильным‘.
Мне не нужно обнаружение выбросов для всех данных. Мне нужно определить, является ли последний образец выбросом относительно других точек данных.

Мой вопрос:

какой алгоритм/метод будет подходить для такой ситуации?

В настоящее время у меня есть две идеи:

Тест Q Диксона.
Просто измерить, является ли последний образец дальше от центра кластера, чем все другие образцы.

Они могут сработать, но обе идеи звучат немного «вспомогательно». Мне кажется, что должно быть более элегантное решение для такой относительно простой проблемы, но мой разум просто пуст. Какой подход вы бы порекомендовали?

Question 2

Для меня это звучит как обнаружение аномалий временных рядов. Вы можете ознакомиться с примером здесь: https://towardsdatascience.com/time-series-anomaly-detection-with-pycaret-706a6e2b2427.

В Pycaret есть более 10 алгоритмов обнаружения аномалий (обертка библиотеки pyod). Вам следует использовать несколько из них, поиграть с долей (порогом) и проверить, какая комбинация работает лучше для ваших данных. В случае, если у вас есть коллекция аномалий, вы можете использовать классификацию (если у вас есть несколько входов в вашем наборе данных, которые могут описать аномалии, или если можно создать входные данные самостоятельно).

Question 3

Вы можете рассмотреть возможность использования модели временных рядов Холта-Уинтерса. Она поддерживает определение тенденций (как вы описываете) и, в свою очередь, помогает интерпретировать сезонный компонент. Она является частью пакета statsmodels.

Question 4

Отлично работает при сравнении временных рядов так называемый “динамический временной варп” (вы можете использовать вывод этой процедуры для кластеризации ваших данных). Это стоит посмотреть.

Что также кажется хорошо работающим – это автоэнкодеры (также GAN). Основная идея заключается в том, чтобы обучить автоэнкодер и использовать функцию потерь в качестве оценки аномалии.

Кластеры могут работать хорошо, но вам нужно выбрать один метод кластеризации, который подходит вашим данным. Это может быть сложно с точки зрения обнаружения аномалий, потому что вы, возможно, не знаете, как ваши данные будут кластеризоваться. Если ваши данные и аномалии кластеризуются в шарах, вы можете использовать евклидово расстояние, применяя K-Means или более общие метрики расстояния, применяя K-Medoid Clusters. Вы можете посмотреть здесь, какие есть типы кластеров и как они могут проваливаться.

Обнаружение аномалий/выбросов в реальном времени?

Вопрос или проблема

Ответ или решение

Детектирование аномалий в режиме реального времени

1. Устойчивые статистические тесты

2. Метод удаления выбросов

3. Модели временных рядов

4. Автоэнкодеры и GAN

5. Алгоритмы классификации и ансамбли

6. Поиск аномалий с помощью PyCaret

Заключение