Вопрос или проблема
У меня есть набор данных, который содержит примерно 15 признаков. С помощью метода локтя я выяснил, что оптимальное количество кластеров, вероятно, равно четырем. Поэтому я применил алгоритм K-средних с четырьмя кластерами. Теперь я хотел бы понять, почему эти кластеры сформировались именно так. Другими словами, я хотел бы определить общие свойства точек конкретного кластера.
Моя идея такова: давайте предположим, что C1 — это координаты центроида первого кластера, а P1 и P2 — две точки этого кластера.
$$
C1 =
\begin{pmatrix}
5\\
2\\
4\\
\end{pmatrix}
$$
$$
P1 =
\begin{pmatrix}
8\\
2\\
6\\
\end{pmatrix}
P2 =
\begin{pmatrix}
9\\
2\\
0\\
\end{pmatrix}
$$
Если мы вычислим среднее расстояние различных координат P1 и P2, мы получим следующее:
$$
DistAverage =
\begin{pmatrix}
((8-5)+(9-5))/2\\
((2-2)+(2-2))/2\\
((6-4)+(4-0))/2\\
\end{pmatrix}
=
\begin{pmatrix}
3.5\\
0\\
3\\
\end{pmatrix}
$$
Значит ли это, что второй признак является “общим свойством” точек этого кластера (поскольку среднее расстояние равно 0)?
Надеюсь, что вопрос был достаточно ясен.
Очевидно, вы можете проверить дисперсию каждого атрибута.
Но если только данные не имеют серьезных ошибок масштабирования, вероятно, потребуется комбинация атрибутов, чтобы объяснить различия между кластерами.
Существует множество оценочных метрик, которые могут количественно описать свойства внутри кластера по сравнению с свойствами между кластерами. Вы описываете нечто похожее на индекс Дэвиса–Болдина, который является мерой разброса внутри кластера.
Как упоминалось в предыдущем ответе, существует множество метрик, которые можно использовать, чтобы определить, почему определенные кластеры были выбраны вместо других. Чтобы дополнить этот ответ, есть и другие метрики, которые вы можете изучить по этой ссылке, которые могут помочь ответить на ваш вопрос.
Инерция
Индекс Данна
Чтобы обобщить эти две метрики, инерция касается расстояния между центроидом и точками в кластере, при этом более низкая инерция считается лучшей. Индекс Данна измеряет соотношение между расстояниями внутри кластера и между кластерами, при этом более высокий балл указывает на лучший кластер. Что касается конкретных “общих свойств”, я бы сказал, что это может быть специфично для конкретного проекта. В ссылке, которую я ранее поделился, есть полезная таблица, показывающая два возможных типа кластеров для одного и того же рассеяния.
В случае 1 кластеры имеют общие уровни дохода, в то время как в случае 2 кластеры имеют общие уровни долга. В статье объясняется, что случай 2 был бы лучшим, потому что вы можете описать кластеры как четыре разные категории: высокий доход/долг, высокий доход/низкий долг, низкий доход/высокий долг, низкий доход/низкий долг. Это лучше, чем две категории, которые мы могли бы вывести из случая 1: низкий доход, высокий доход. Это дало бы нам лучшее “общее свойство” кластера долгов.
Ответ или решение
Общие свойства кластерных образцов
Вопрос об определении общих свойств объектов в кластерах является ключевым аспектом анализа данных, особенно после применения алгоритма кластеризации, такого как K-средние. В вашем случае вы применили метод "локтя" для определения оптимального числа кластеров, и теперь хотите разобраться с тем, почему ваши кластеры сформированы именно так, как они есть.
Ключевые аспекты оценки кластеров
-
Центроид и расстояние между точками:
Вы вычислили центроид первого кластера и расстояния между ним и двумя точками этого кластера (P1 и P2). Расчет среднего расстояния показывает, что вторая характеристика (в вашем примере – это вторая координата) действительно является "общим свойством", так как среднее расстояние равно нулю. Это указывает на то, что все точки в этом кластере имеют одинаковое значение для этой характеристики. -
Вариация признаков:
В дополнение к вычислению средних расстояний вам следует рассмотреть вариацию каждого признака в кластере. Низкая вариация по атрибуту может служить индикатором того, что этот атрибут является значимым общим свойством для точек в кластере. -
Внутри – кластерная и между кластерная дисперсия:
Метрики, такие как инерция и индекс Данна, могут помочь вам в осмыслении распределения данных. Инерция измеряет сумму квадратов расстояний между точками кластера и его центроидом. Низкая инерция указывает на более компактные кластеры, которые легче интерпретировать. Индекс Данна, со своей стороны, оценивает соотношение между расстоянием в пределах кластера и расстоянием между кластерами, позволяя понять, насколько кластеры отличаются друг от друга. -
Сравнение признаков:
Зачастую важно не только анализировать отдельные признаки, но и их комбинации. Как вы отметили, в зависимости от контекста данных, важно не просто искать одно "общее свойство", а понимать, как несколько признаков могут взаимодействовать, чтобы объяснить структуру кластеров. -
Контекст данных:
Конкретные "общие свойства" кластеров будут зависеть от содержания вашего набора данных. Например, в случае финансовых данных кластеры могут представлять разные уровни дохода и долга, что дает более полное представление о своих пользователях (в отличие от просто разделения на высокие и низкие доходы).
Заключение
Понимание формирующих характеристик кластеров требует многоаспектного анализа. Ваш интерес к свойствам кластеров, таким как расстояние до центроида и распределение признаков, является важным шагом в глубоком понимании данных. Использование различных метрик и методов анализа позволит вам извлечь более полноценную информацию из собранных данных и наилучшим образом интерпретировать полученные результаты.
Для дальнейшего изучения можно обратиться к литературам о метриках кластеризации, а также использовать визуализацию данных, чтобы лучше понять распределение и свойства каждого кластера.