Вопрос или проблема
Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка.
Хотя я посмотрел на код, я не уверен в самом алгоритме.
Используйте оригинальные статьи и книги по F1 и NMI.
Нет особой причины использовать только статью 2016 года на arxiv (не рецензированную), которая использует их, поскольку они были введены задолго до этого.
Я не вижу, чтобы F1 упоминался где-либо в статье, и это было бы необычным выбором для кластеризации (см. литературу для подробностей).
Ответ или решение
Как измерить F1-меру и NMI для задачи кластеризации
Введение
Кластеризация – это важная задача в области машинного обучения, которая подразумевает группировку схожих объектов. Для оценки качества кластеризации используются различные метрики, среди которых F1-метрика и NMI (нормализованная взаимная информация) являются наиболее распространенными. В данной статье мы подробно рассмотрим, как правильно измерять эти показатели.
Измерение F1-метрики
F1-метрика, как правило, используется в задачах классификации, но её можно адаптировать для кластеризации. Чтобы применить F1, вам необходимо сначала преобразовать задачу кластеризации в задачу бинарной классификации, что предполагает наличие истинных меток классов и предсказанных кластеров.
-
Определение терминов:
- Precision (точность): отношение истинных положительных результатов (TP) к количеству положительных предсказаний (TP + FP).
- Recall (полнота): отношение истинных положительных результатов (TP) к количеству фактических положительных примеров (TP + FN).
- F1-мерка: гармоническое среднее между точностью и полнотой, вычисляется по формуле:
[
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
]
-
Алгоритм расчета F1-метрики:
- Шаг 1: Для каждого кластера, предсказанного вашей моделью, идентифицируйте истинные метки классов, чтобы определить TP, FP и FN.
- Шаг 2: Вычислите Precision и Recall.
- Шаг 3: Подставьте значение Precision и Recall в формулу F1, чтобы получить окончательный результат.
Измерение NMI
Нормализованная взаимная информация (NMI) является метрикой, основанной на информации, которая измеряет степень соглашения между двумя распределениями данных (например, предсказанные кластеры и истинные метки классов). NMI принимает значения от 0 до 1, где 1 означает полное соответствие.
-
Определение терминов:
- H(X): энтропия переменной X.
- I(X; Y): взаимная информация между переменными X и Y.
-
Формула NMI:
[
NMI(X, Y) = \frac{2 \times I(X; Y)}{H(X) + H(Y)}
] -
Алгоритм расчета NMI:
- Шаг 1: Расчет энтропии H(X) и H(Y) для истинных меток и предсказанных кластеров.
- Шаг 2: Определите взаимную информацию I(X; Y) между X и Y.
- Шаг 3: Подставьте значения в формулу NMI для получения результата.
Заключение
Измерение F1-метрики и NMI для оценки качества кластеризации – это важный этап в анализе данных. Использование этих метрик позволяет глубже понять, насколько хорошо алгоритм кластеризации соответствует истинным классам. При анализе необходимо понимать, что выбор метрики зависит от специфики задачи и требований к результатам.
Создание четкой и понятной оценки качества кластеризации может значительно улучшить результаты и эффективность моделей машинного обучения. Эти методы активно используются в научных работах и могут быть дополнением к практике работы с данными.