Определите лучшие гиперпараметры в GridSearch – Isolation Forest.

Вопрос или проблема

Я реализовал алгоритм Isolation Forest для обнаружения аномалий (обучение без учителя), где я разделил свой набор данных на 1000 подмножеств, и для каждого подмножества существует одно изоляционное дерево. Это приводит в общей сложности к 1000 изоляционным деревьям.

Для каждой наблюдаемой величины Isolation Forest вычисляет оценку аномалии, используя стандартную изоляционную формулу, и выдает единственную оценку аномалии. Например, для наблюдения 1 вычисленная оценка аномалии равна 0.65.

Теперь я хочу определить, является ли эта единственная оценка аномалии наилучшей возможной оценкой для моих наблюдений. Я рассматривал возможность использования Grid Search для оптимизации гиперпараметров, где я использовал различные наборы значений для следующих гиперпараметров:

'n_estimators': list(range(100, 800, 5)), 
'max_samples': list(range(1000, 1500, 2000)), 
'contamination': [0.1, 0.2, 0.3, 0.4, 0.5], 
'max_features': [20,30,40], 
'bootstrap': [True, False], 
'n_jobs': [5, 10, 20, 30]

Мой вопрос:

Так как каждый набор гиперпараметров дает одну оценку аномалии, как я могу определить, какой набор гиперпараметров дает наилучшие оценки аномалий?

Поскольку у меня нет размеченных данных (обучение без учителя), какой метрикой я должен пользоваться для оценки различных наборов гиперпараметров?

Ответ или решение

Оптимизация гиперпараметров модели в условиях несупервизированного обучения, такого как Isolation Forest, представляет собой нетривиальную задачу, особенно в отсутствие помеченных данных. Рассмотрим, как можно определить лучшие гиперпараметры для Isolation Forest с использованием GridSearch, и какие метрики могут быть полезны в данном контексте.

Теория

Isolation Forest предназначен для работы с аномалиями, основываясь на идее, что аномалии легче изолируются на деревьях из-за общей редкости. Однако ключевым аспектом является подбор гиперпараметров модели, таких как количество деревьев (n_estimators), доля выборки для каждого дерева (max_samples), уровень зараженности (contamination), количество признаков для каждого разделения (max_features), использование подвыборки (bootstrap), и количество параллельных потоков (n_jobs).

Для несупервизированных алгоритмов, таких как Isolation Forest, оценка качества гиперпараметров может представлять сложность. Метрики, такие как точность или F1-score, типично недоступны без меток классов. Поэтому приходится использовать иные подходы.

Пример

Рассмотрим конкретный случай применения Isolation Forest: у вас имеется большой набор данных, где аномалии встречаются крайне редко. Применяя Isolation Forest, вы получаете аномальные скоры, например, 0.65 для определенной записи. Однако без меток данных, определяющих является ли это значение действительно аномалией, оценка точности модели является сложной задачей.

Применение

  1. Кросс-валидация с избыточной выборкой (Outlier Cross-Validation): Можно использовать технику кросс-валидации, предполагая, что данные содержат лишь малое количество аномалий. Разделите данные на несколько подвыборок, примените модель, а затем сравните распределение аномальных скор. Это может компенсировать отсутствие явных меток путем изучения внутренней согласованности модели.

  2. Энтропия и информационные критерии: Анализ распределения аномальных скор внутри множества. Меньшая энтропия и вариативность в результатах могут сигнализировать о более подходящих гиперпараметрах.

  3. Скоростная техника: Возьмите множество гиперпараметров и вычислите runtime модели. Меньший runtime при сохранении точности может быть предпочтительным.

  4. Визуализация результатов: Построение графиков распределения аномальных скор среди различных комбинаций гиперпараметров. Визуальный анализ может помочь в нахождении таких параметров, которые выделяют аномалии более явно.

  5. Пользовательская экспертная оценка: В случае, если имеются хоть какие-то экспертные знания о распределении данных, можно оценивать, насколько обычно определенные значения или паттерны данных.

  6. Использование суррогатных метрик: Такие метрики, как Silhouette Score (для оценки корреляции с кластерами) или использующие методики разреженных состояний. Они могут предоставить взгляды на структуру данных.

Подводя итог, отсутствие меток данных не является приговором для настройки гиперпараметров. Использование комбинации указанных техник, глубокое понимание предметной области и визуализация позволяют повысить эффективность использования Isolation Forest и реализовать детекцию аномалий даже в условиях несупервизированного обучения.

Оцените материал
Добавить комментарий

Капча загружается...