Агломеративная кластеризация классифицирует 98% моих данных в одном кластере. Почему?

Вопрос или проблема

У меня есть матрица расстояний JSD, которую я пытаюсь кластеризовать. При генерации 24 кластеров (примерно такое количество отображается на кластерной карте) большинство данных оказывается в одном кластере. Странно, но эта проблема исчезает, когда я не использую конденсированную матрицу расстояний (что означает, что я не использую функцию squareform). Однако, думаю, это необходимо, потому что моя матрица JSD имеет размер 6k X 6k.

linkage_matrix = linkage(squareform(dist_df.values, force="tovector", checks=False), method='average')

sns.set_theme(rc={'figure.figsize':(100, 80)})
sns.set(font_scale=0.1)
sns.clustermap(dist_df, row_linkage=linkage_matrix, col_linkage=linkage_matrix, linewidth=0.000001, dendrogram_ratio=0.2)

Проблема заключается в расхождении между кластерной картой, на которой явно видно больше одного крупного кластера, и затем в том, что метки кластеров этого не отражают.


cluster = AgglomerativeClustering(n_clusters=24, metric="precomputed", linkage="average")  
cluster.fit_predict(dist_df)
label = cluster.labels_

og_df = assign_labels_to_original_df(og_df, label)

Ответ или решение

Агломеративная кластеризация является популярным методом группировки данных, который используется для объединения объектов в кластеры на основе заданных метрик расстояния. В данном случае вы используете матрицу расстояний на основе JSD (Женсен-Шенноново расстояние) для кластеризации ваших данных. Однако, несмотря на то, что вы ожидаете получить 24 кластера, 98% данных попадает в один кластер. Рассмотрим несколько возможных причин и решений этой проблемы, используя подход TEA (Теория, Пример, Применение).

Теория:

Агломеративная кластеризация строит иерархическую деревовидную структуру (дендрограмму), начиная с каждого объекта как отдельного кластера и объединяя их в более крупные кластеры на основе их похожести. Она может использовать разные методы объединения, такие как "single", "complete", "average" и другие. В вашем случае выбран метод "average", который вычисляет среднее расстояние между всеми парами объектов в двух кластерах и использует его для определения объединения.

Женсен-Шенноново расстояние (JSD) является метрикой, которая измеряет разницу между двумя вероятностными распределениями. Если одно или несколько распределений значительно отличаются по своему составу, это может повлиять на результаты кластеризации.

Пример:

Представьте, что у вас есть данные о предпочтениях потребителей для 6000 продуктов. Вы хотите разделить потребителей на 24 кластера на основе похожести их предпочтений, выраженной через JSD. Если большинство потребителей имеют очень схожие предпочтения или же представлены неоднородно, модель может некорректно определить кластеризацию, особенно если распределения не сбалансированы или содержат выбросы.

Применение:

Проверка данных:
- Убедитесь, что данные корректно предобработаны. Подумайте о нормализации данных перед обработкой, чтобы устранить эффекты от распределений с большой дисперсией.
- Протестируйте используемые данные на наличие выбросов. Большое количество похожих объектов может быть связано с выбросами или несбалансированными распределениями. Выбросы могут существенно влиять на алгоритм агломеративной кластеризации.
Анализ подхода "squareform":
- Уточните, корректно ли преобразование вашей матрицы расстояний через squareform. В использовании этой функции могут быть ошибки, особенно при неверной интерпретации размерности.
- Если результат без применения squareform улучшается, возможно, ошибка связана с тем, что функция либо некорректно преобразует данные, либо игнорирует какую-то структуру в данных. Проверьте корректность размерности, а также отсутствие NaN или бесконечных значений.
Изменение гиперпараметров:
- Протестируйте различные методы кластеризации и линковки, например, "single" или "complete". Это может значительно изменить результаты иерархической кластеризации.
- Попробуйте увеличить число кластеров. Возможно, ваш выбор 24 кластеров плохо отражает реальное разделение в данных.
Визуализация и интерпретация:
- Использование sns.clustermap может помочь в интерпретации дендрограммы. Повысив детализацию визуализации, вы сможете лучше понять, какие объекты были неправильно объединены.
- Проведите дальнейший анализ дендрограммы, чтобы выявить на каком этапе большинство кластеров объединяется в один. Это может дать подсказки относительно изменения порогов или метрики.
Анализ данных с альтернативных позиций:
- Рассмотрите возможность использования других метрик расстояния, таких как косинусное расстояние или евклидово расстояние, возможно, они лучше подойдут для вашего набора данных.
- Используйте методы снижения размерности (например, PCA), чтобы определить скрытые закономерности, которые могут влиять на кластеризацию в высокоразмерном пространстве.

Таким образом, знание о том, как правильно интерпретировать и адаптировать алгоритм агломеративной кластеризации в вашем конкретном случае, может существенно улучшить результаты кластеризации и привнести больше понимания в вашу аналитическую задачу. Espero, что эти рекомендации помогут вам оптимизировать ваш процесс работы с JSD матрицей.