Вопрос или проблема
В необучаемом обнаружении аномалий, превращает ли включение процента загрязнения изолирующий лес в обучаемый, а не необучаемый, когда я подгоняю данные после этого?
Изолирующий лес является по сути необучаемым алгоритмом. Его основная механика не зависит от размеченных данных для идентификации аномалий. Вместо этого он работает, изолируя аномалии, основываясь на том, насколько легко или сложно отделить отдельные точки данных от остальной части набора данных.
загрязнение ‘auto’ или float, по умолчанию=’auto’
Количество загрязнения набора данных, т.е. доля выбросов в наборе данных. Используется при подгонке для определения порога по оценкам образцов.
Если ‘auto’, порог определяется так же, как в оригинальной статье.
Если float, загрязнение должно быть в диапазоне (0, 0.5].
Параметр загрязнения в изолирующем лесу не связан с предоставлением меток. Это скорее как подсказка алгоритму о том, сколько аномалий ожидать. Это говорит: “Эй, мы думаем, что около X% наших данных могут быть аномальными.”
Превращает ли включение процента загрязнения изолирующий лес в обучаемый?
Краткий ответ: Нет, это не превращает изолирующий лес в обучаемый метод.
Вот почему:
- Вы не предоставляете фактические метки для аномалий.
- Алгоритм по-прежнему самостоятельно решает, какие точки данных являются аномальными.
- Это скорее настраивающий параметр, чем сигнал управления.
Что на самом деле делает загрязнение?
- Оно помогает установить порог для того, что считается аномалией.
- Оно влияет на функцию принятия решений, определяя, насколько строго или лояльно алгоритм отмечает аномалии.
Как сохраняется необучаемый характер?
- Алгоритм по-прежнему изучает структуру данных, не зная, какие точки на самом деле аномальны.
- Он принимает свои собственные решения, основываясь на принципе изоляции, а не на предварительно размеченных примерах.
Итак, подводя итог: Включение параметра загрязнения не превращает изолирующий лес в обучаемый метод. Он по-прежнему остается совершенно необучаемым. Загрязнение больше похоже на гиперпараметр, который помогает настраивать чувствительность алгоритма, а не на способ управления процессом обучения.
.
Ответ или решение
Влияет ли параметр «контаминация» на характеристику Isolation Forest как нев supervisированного метода?
Isolation Forest — это алгоритм для обнаружения аномалий, который изначально создан как метод без надзора. Он не требует размеченных данных для определения аномалий; его механизм основан на способности изолировать точки данных, определяя, насколько легко или сложно отделить отдельные элементы от остальной части набора данных. Однако возникает вопрос: влияет ли включение параметра контаминации на его класс, превращая его из несупервизированного в супервизированный метод?
Параметр Контаминации
Контаминация — это ожидаемая доля аномальных данных в наборе. Она определяет, какое количество точек данных, по мнению пользователя, может быть аномальными. Важно отметить, что использование контаминации не означает предоставления алгоритму явных меток.
- Значение по умолчанию: Параметр может принимать значение «auto» или быть задан в явном виде (в диапазоне от 0 до 0.5).
- Роль параметра: Направляет алгоритм в вопросе, сколько аномальных данных следует ожидать, помогая установить порог для определения аномалий.
Почему это не делает метод супервизированным?
-
Отсутствие явных меток: Контаминация не дает алгоритму доступ к реальным меткам классов. Это скорее "подсказка", которая облегчает настройку, чем элемент надзора.
-
Самостоятельные решения: Isolation Forest по-прежнему принимает решение о том, какие точки являются аномальными, исходя из своей внутренней логики изоляции. Алгоритм не обучается на размеченных данных или не использует какие-либо предустановленные категории.
-
Тонкая настройка: Контаминация задает важный параметр для настройки чувствительности алгоритма к определению аномалий, а не обеспечивает возможность управления процессом обучения.
Как сохраняется природа несупервизированного обучения?
-
Изучение структуры данных: Алгоритм находит аномальные точки, опираясь на структуру данных, не зная заранее, какие из них будут аномальными.
-
Принципы изоляции: Применение методов изоляции позволяет алгоритму сосредоточиться на фактических характеристиках данных, а не на метках.
Заключение
Включение параметра контаминации не трансформирует алгоритм Isolation Forest из несупервизированного в супервизированный метод. Это остаётся методом без надзора, где контаминация служит скорее гиперпараметром для настроек алгоритма, чем способом обучения с контролем. Таким образом, данный подход сохраняет свойства и преимущества несупервизированного анализа, позволяя исследовать данные с максимальной гибкостью и адаптивностью.