Алгоритм машинного обучения для обнаружения аномалий в больших наборах событий.

Question 1

Начнем с следующих гипотетических предварительных условий:

Есть трафик: нормальный и аномальный. Каждый образец трафика содержит список событий (переменного размера)
События происходят в определенном порядке, возможный размер набора событий составляет ~40000 элементов
Должен работать на относительно небольшом объеме памяти и вычислительной мощности

Имея образец трафика (максимум 1000 событий), какой алгоритм машинного обучения лучше всего подходит под эти предварительные условия для определения, является ли он аномалией?

Учитывая мои ограниченные знания в алгоритмах машинного обучения, вот что я придумал:

Эту систему можно очень хорошо описать как марковский процесс, но в этом сценарии есть огромные ограничения по памяти.

1. Уменьшенные марковские цепи

Сохранять часто встречающиеся пары событий (которые появлялись больше 10 раз в нормальном трафике), а затем искать какую-либо пару там: если она не появляется, считать это аномалией. Затем использовать некоторую эвристику для определения, является ли трафик в целом аномальным.

Я назвал это уменьшенным, потому что на практике мы используем только цепочку из двух событий, любая другая большая цепочка станет огромной комбинаторной задачей и заполнит любую память, которую ей предоставят, что неприемлемо.

2. Наивный KNN

Получить все нормальные образцы трафика (каждый образец может содержать до 1000 событий) и проанализировать количество появлений каждого события в каждом образце. Разделить набор данных на 10 частей, вычислить их средние значения, чтобы получить среднюю частоту для каждой части (по сути, у нас теперь есть 10 векторов средней частоты) и использовать их как положительные данные в алгоритме KNN.

Сделать то же самое с аномальным трафиком и добавить 10 точек данных. Имея эти точки, мы можем использовать регрессию алгоритма KNN для вычисления оценки и принятия решения.

Это немного сложно, потому что векторы частоты довольно большие, и их слишком много становится проблемой. Решение могло бы заключаться в реализации разреженных векторов.

Есть ли другие идеи, чего я не учел?

Question 2

Вы также можете попробовать следующие:

4- Одноклассовая SVM (машина опорных векторов):

Вы можете обучить это на нормальных образцах, которые у вас есть, и затем он сможет отметить их все и обнаружить любое, что не попадает под этот ярлык. Он также может легко масштабироваться, хотя обучение на больших данных может быть довольно медленным. Вы можете попробовать реализацию scikit-learn:
https://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html

5- Лес изоляции:

Лес изоляции на самом деле является ансамблевым алгоритмом, он использует Деревья случайного леса для обнаружения аномалий или выбросов в данных. В первую очередь вы можете попробовать реализацию scikit-learn:
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

6- Глубокая одноклассовая классификация:

Другим вариантом, который вы можете попробовать, является реализация нейронной сети для одноклассовой классификации. Вы должны быть в состоянии сделать это легко с Keras, например. Вы можете ознакомиться с документацией Keras здесь:
https://keras.io/models/about-keras-models/

Кроме того, для реализации могут помочь следующие ссылки:
https://blog.keras.io/building-autoencoders-in-keras.html,
https://medium.com/@curiousily/credit-card-fraud-detection-using-autoencoders-in-keras-tensorflow-for-hackers-part-vii-20e0c85301bd

Question 3

Перед использованием алгоритма KNN вы могли бы просто снизить размерность, применив, например, разложение на сингулярные значения или PCA. Это уменьшит сложность для данного алгоритма.

Кроме того, использование разреженных векторов всегда является хорошей идеей. Другой подход для минимизации потребления памяти — привести все значения к наименьшему типу.

Алгоритм машинного обучения для обнаружения аномалий в больших наборах событий.

Вопрос или проблема

Ответ или решение

Алгоритмы машинного обучения для обнаружения аномалий в больших наборах событий

Введение

Условия задачи

Предлагаемые алгоритмы

1. Упрощенные марковские цепи

2. Алгоритм K-ближайших соседей (KNN)

3. Одноклассовый SVM (Support Vector Machine)

4. Изолирующий лес (Isolation Forest)

5. Глубокая классификация с одним классом

Предложения по предобработке данных

Заключение