Является ли HDBSCAN агломеративной иерархической кластеризацией?

Вопрос или проблема

Я смотрю на HDBSCAN и задаюсь вопросом, является ли он делительным или агломеративным? Я понимаю оба подхода, но не понимаю, какой из них использует HDBSCAN. Ищу пояснения.

Ответ дан в Пропозиции 1 в статье по HDBSCAN 1. Там говорится, что DBSCAN* (определяемый как неиерархический алгоритм кластеризации) может быть вычислен с помощью агломеративной кластеризации в альтернативном пространстве и с дополнительным кластером “Шум”:

Пропозиция 1. Пусть $X$ – это множество из $n$ объектов, описанных вMetric пространстве с помощью $n × n$ попарных расстояний. Разбиение этих данных, полученное с помощью DBSCAN* относительно $m_{pts}$ и $ε$, идентично тому, что получено путем первоначального выполнения алгоритма Single-Linkage над преобразованным пространством взаимной достижимости, затем, обрезая полученный дендрограмму на уровне $ε$ его шкалы и рассматривая все полученные единичные элементы с
$d_{core}(xp) > ε$ как один класс, представляющий “Шум”.

.

Ответ или решение

HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) представляет собой алгоритм кластеризации, который действительно использует агломеративный подход, а не делительный. Чтобы подробнее понять, как HDBSCAN достигает своей функциональности и почему он относится к агломеративным методам, стоит рассмотреть несколько ключевых аспектов данного алгоритма и его сходства с другими методами кластеризации.

Основные аспекты HDBSCAN и его агломеративная природа

  1. Принцип работы HDBSCAN:
    HDBSCAN строит иерархию кластеров путем анализа взаимной досягаемости объектов, что приводит к созданию дендрограммы. Вместо того, чтобы начинать с отдельных объектов и разбивать их на кластеры (как это делает делительный метод), HDBSCAN начинает с объединения близких объектов в кластеры на основе их плотности, что является агломеративным процессом.

  2. Схема кластеризации:
    Как указано в тексте вашего запроса, HDBSCAN можно воспринимать как алгоритм, основанный на агломеративной кластеризации с использованием расстояний взаимной досягаемости. Это означает, что алгоритм сначала объединяет объекты, которые находятся друг к другу достаточно близко, а затем строит кластерные структуры на основе полученных взаимодействий.

  3. Теоретическая основа:
    В Proposition 1 статьи, посвященной HDBSCAN, утверждается, что DBSCAN* может быть вычислен с помощью агломеративной кластеризации в преобразованном пространстве. Это подтверждает, что HDBSCAN использует подход, аналогичный агломерации, поскольку он фактически относится к методу объединения объектов в группы.

  4. Дендрограмма и разрезание:
    Аргумент Proposition 1 также акцентирует внимание на разрезании дендрограммы, как этапе работы алгоритма. Это разрезание на уровне ε, которое позволяет выделить различные кластеры, а также управление «шумом» (объектами, которые не попадают в кластеры). Такой процесс является характерным для агломеративного подхода к кластеризации, где с каждого уровня иерархии происходит создание отдельных кластеров на основании определенных условий.

Заключение

Таким образом, можно четко заключить, что HDBSCAN использует агломеративный подход к кластеризации. Он строит иерархию, начиная с объединения объектов и изучая их взаимосвязи в плотностях. Это делает его отличным инструментом для нахождения кластеров в сложных и шумных данных. В контексте кластерного анализа HDBSCAN создает более полное представление о структуре данных, обеспечивая то, что традиционные методы могут упустить, а именно: наличие и значимость «шумовых» данных.

Для того чтобы применять HDBSCAN эффективно, важно понимать, как его агломеративная природа взаимодействует с параметрами алгоритма, такими как минимальное количество точек и расстояние ε, что в конечном итоге формирует кластеры и позволяет выполнять более точную кластеризацию на реальных данных.

Оцените материал
Добавить комментарий

Капча загружается...