Вопрос или проблема
В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми.
Дело в том, что может возникнуть ситуация, когда я не хочу, чтобы точка, которая находится далеко, считалась аномалией, и мне нужен какой-то контролируемый или полу-контролируемый метод для обнаружения аномалий.
Так что я думаю следующее:
1. Пометить несколько точек как аномалии, используя LOF/IF.
2. Обучить классификатор на основе меток, а затем при необходимости внести ручные коррективы.
Считается ли это полу-контролируемым методом? Есть ли у кого-то опыт с подобной проблемой, который мог бы сказать, не упускаю ли я что-то здесь?
Кроме того, поскольку я помечаю аномалии, набор данных будет очень несбалансированным. Моя идея заключается в использовании бэггинга для этого. Допустим, в моем наборе данных 1% аномалий, я бы обучил 100 моделей с одинаковой пропорцией (части аномалий остаются одинаковыми в каждой модели, но нормальные точки меняются, пока я не обработаю весь набор данных), и тогда финальное предсказание будет голосованием всех моделей. Это глупо или хорошая идея?
Если вы используете детектор аномалий для прямой маркировки данных, последующий контролируемый шаг не может быть лучше этого. Конечно, можно “скорректировать” метки позже, но существует риск предвзятости из-за существующих меток, если человек увидит это заранее.
Вместо того чтобы случайным образом выбирать данные для маркировки, вы могли бы выбрать взвешенные на основе оценки аномалии. Это имеет два эффекта: 1) уменьшает дисбаланс классов 2) сосредотачивает усилия по маркировке на вероятных аномалиях.
Это предполагает хорошо настроенный детектор аномалий. А хорошего способа сделать это без валидационного набора нет. Этот набор данных желательно выбирать случайным образом, чтобы избежать предвзятости.
Ответ или решение
Полунадзорное обнаружение аномалий
Обнаружение аномалий — это важная задача в области анализа данных, особенно в контексте обеспечения безопасности, выявления мошенничества, мониторинга систем и других приложений. Ваше стремление использовать полунадзорные методы для повышения точности обнаружения аномалий вполне обосновано. Давайте рассмотрим предложенный вами подход и оценим его эффективность.
Введение в полунадзорное обнаружение аномалий
Полунадзорные методы в контексте обнаружения аномалий способны использовать как размеченные, так и неразмеченные данные. Размеченные данные обычно содержат небольшой процент аномалий, что делает задачу более сложной. Ваша идея объединить предварительное обнаружение аномалий с последующим обучением классификатора — это на самом деле классический подход, применяемый в полунадзорном обучении.
Предложенный подход
Ваш план состоит из следующих шагов:
-
Обнаружение аномалий с помощью LOF или Isolation Forest: Вы используете метод локального фактора выброса (LOF) или Isolation Forest для начального разметки данных, определяя потенциальные аномалии.
-
Обучение классификатора: С помощью полученных меток вы обучаете классификатор, который затем будет оценивать новые данные.
Потенциальные проблемы
Использование обнаружителя аномалий для начальной разметки данных несет определенные риски. Как правильно заметили ваши оппоненты, если после обнаружения аномалий человек напрямую влияет на метки, это может привести к предвзятости.
-
Если модель дает неверные метки, это может негативно повлиять на обучение классификатора. Это делает важным этап настройки метода обнаружения аномалий перед использованием его для разметки данных.
-
Классовая несбалансированность: Ваша задача заключается не только в обнаружении аномалий, но и в обучении модели, которая правильно интерпретирует новые, неразмеченные данные. Этот процесс может быть затруднен при значительном несоответствии между классами (1% аномалий против 99% нормальных данных).
Подходы к улучшению
Для повышения точности вашего подхода, рассмотрите следующее:
-
Взвешенная выборка: Вместо случайного выбора данных учтите возможность выборки с учетом значений аномальных оценок. Это позволит уменьшить классовую несбалансированность и сосредоточить усилия на вероятных аномалиях.
-
Баггинг (Bagging): Вы предложили использовать этот метод для разбивки ваших данных на 100 моделей. Такой подход может действительно повысить стабильность и точность вашего прогноза. Однако важно учесть эффективность и скорость выполнения, особенно при работе с большими наборами данных.
-
Валидация и тестирование: Перед окончательным принятием результата уделите большое внимание созданию валидационного набора с удачно подобранными данными. Это позволит не только проверить настройки модели, но и выявить возможные недостатки.
Заключение
Ваш подход к полунадзорному обнаружению аномалий имеет многообещающие черты, однако требует тщательной настройки и тестирования, чтобы изначально установить высокое качество обнаружителя аномалий. Помните, что в этом процессе важны как выбор метода обучения, так и контроль качества меток, данных и использования подходящих методов валидации. Полунадзорные методы могут значительно улучшить результаты обнаружения аномалий, если подходить к ним с умом и предусмотреть все тонкости процесса.