Выполнение несупервизируемого обнаружения аномалий на наборе данных без каких-либо меток и без описаний переменных.

Вопрос или проблема

Я пытаюсь провести неконтролируемое обнаружение аномалий на наборе данных с десятком переменных. Ни одна из них не имеет описаний, и в наборе данных нет никаких меток или классовых переменных.

Я попробовал использовать Robust Scaler для масштабирования и преобразования данных, затем применил Isolation Forest и локальный фактор выбросов на наборе данных, но когда я пытаюсь визуализировать результаты, применяя PCA на масштабированные данные, я не могу действительно увидеть аномалии или явные выбросы на визуализации, но я не уверен, почему. Я посмотрел несколько учебников, и они следуют тем же шагам, что и я.

Как я могу оценить свои модели и визуализировать выбросы? При отображении аномалий красным, они не кажутся на самом деле далекими или отличающимися от нормальных точек данных на графике PCA.

Неужели я упускаю что-то или забываю важный шаг перед применением алгоритма?

Для структурированной оценки вашего метода вам нужно разметить некоторые данные. Вы не сможете определить, насколько хорошо он выявляет аномалии, если вы не определили, что на самом деле означают аномалии.

Ответ или решение

Детектирование аномалий в данных без меток и описаний переменных — это нетривиальная задача, требующая тщательного анализа и подхода. Давайте подробно рассмотрим, как можно осуществить этот процесс.

Теоретическая основа (Theory)

Детекция аномалий без учителя подразумевает определение точек данных, которые значимо отличаются от базового распределения выборки. Если в вашем распоряжении нет меток для оценки точности модели, задача становится гораздо более сложной. В таких случаях применяются алгоритмы, которые могут находить отклонения в данных без предварительного обучения на разметке. Среди них: Isolation Forest и Local Outlier Factor (LOF).

Каждый из этих методов работает по своему принципу. Isolation Forest выделяет аномалии, разлагая данные на иерархию деревьев и определяя, насколько легко изолируются определённые точки данных. LOF же сравнивает плотность вокруг точки с плотностью её ближайших соседей, выделяя те, которые находятся в менее плотных областях.

Однако, теоретическая детекция может упереться в следующую проблему: как визуализировать и проверить полученные результаты, если поведение алгоритмов не подтверждается ясными визуальными отличиями?

Пример из практики (Example)

Ваш опыт применения масштабирования с помощью Robust Scaler, а затем применения методов Isolation Forest и Local Outlier Factor, является распространённым подходом. Однако вы столкнулись с проблемой визуализации и проверки результатов через методику PCA.

Principal Component Analysis (PCA) — это метод понижения размерности, который значительно упрощает набор данных, сохраняя наиболее вариативные особенности. Однако он не всегда явно выявляет аномалии, поскольку его задача заключается не в детекции выбросов, а в представлении данных в новой координатной системе.

Если аномалии не ясно видны на PCA-графике, это может свидетельствовать о том, что выбросы либо слишком слабо отличаются в контексте выделенных компонент, либо их влияние на общее распределение данных незначительно. Правильность выбора метода визуализации и анализа результатов критически важна.

Применение (Application)

Чтобы улучшить процесс обнаружения и визуализации аномалий, рассмотрите комплексный подход. Начнем с нескольких шагов, которые могут быть полезны:

Масштабирование данных: При использовании методов, таких как PCA, предварительное масштабирование данных (например, с помощью StandardScaler или MinMaxScaler) может оказать значительное влияние на результат, делая распределение данных более нормальным.
Подбор гиперпараметров: Эксперименты с гиперпараметрами используемых алгоритмов (таких как количество деревьев в Isolation Forest или количество соседей в LOF) могут помочь в улучшении результатов.
Дополнительные методы визуализации: Попробуйте другие методы визуализации или анализа данных, например, т-SNE или UMAP, которые могут более эффективно выделять неявные аномалии благодаря своей нелинейной природе.
Кластеризация: Предположите наличие кластерной структуры, использовав, например, DBSCAN или k-means для отделения групп точек и выделения аномалий в каждой из них.
Обратное моделирование: Попробуйте внедрить технику обратного моделирования, чтобы вручную просмотреть и разметить данные, что предоставит некоторое количество меток для дальнейшей проверки метода, или используйте экспертное знание для выделения ключевых характеристик аномальных точек.
Более сложные модели: Рассмотрите возможность применения глубочайших сетей или автоэнкодеров для выделения аномалий, особенно если данные содержат много нестандартных корреляций и неявных структур.

Подводя итог: выполнение детекции аномалий без предварительных меток требует не только надёжной модели, но и эффективной стратегии обработки и визуализации данных. Критически важно выбрать подходящее сочетание методов, обеспечивающее наилучшее понимание и проверку выявленных паттернов. Эксперименты с параметрами и методами визуализации, как и задействование нового аналитического подхода, помогут обеспечить лучшее понимание и более явные результаты.