Реализация K-модов в pyspark

Question 1

Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации.

Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github. Эта реализация сработала (то есть выполнилась без ошибок), но я по-прежнему не могу использовать ее должным образом из-за отсутствия руководства/техник использования. Согласно странице на github:

n_modes=36
partitions=10
max_iter=10
fraction = 50000 * partitions / (data.count() * 1.0)
data = data.rdd.sample(False,fraction).toDF()

method=IncrementalPartitionedKMetaModes(n_partitions = partitions, n_clusters = n_modes,max_dist_iter = max_iter,local_kmodes_iter = max_iter,
 similarity = "frequency", metamodessimilarity = "hamming")

cluster_metamodes = method.calculate_metamodes(data)

Я не могу понять, как использовать этот cluster_metamodes или что он вообще означает.

Короче говоря, k-моды будут выполняться для каждой партии, чтобы
определить набор мод (кластеров) для каждой партии. Далее,
k-моды будут повторяться для определения мод набора всех мод из
всех партий. Эти моды мод называются метамодами здесь.

Может кто-то объяснить концепцию и сказать, как использовать этот метод кластеризации на pyspark dataframe с категориальными значениями?

Question 2

Моды – это просто аналог центроидов в методе k-средних. Распределенная реализация назначает точки к кластерам параллельно на подмножествах данных, затем вычисляет новые центроиды параллельно, и, наконец, собирает эти результаты для выполнения (взвешенного) среднего этих центроидов, чтобы получить реальные центроиды. Аналогично здесь, после назначения кластеров моды вычисляются на подмножествах данных параллельно, но затем их нужно собрать и объединить в реальные новые моды. По какой-то причине они называют ‘реальные’ моды ‘метамодами’.

Question 3

Я рад слышать, что он работает без ошибок. С тех пор, как был задан вопрос, я исправил еще несколько проблем и также написал статью об этом, которая может быть использована в качестве документации для ясности (статья указана на github).

Содержимое cluster_metamodes – это массив, содержащий результирующие “моды мод” или метамоды. Другими словами, это список с центрами кластеров. То, как использовать это дальше, зависит только от вас. Например, вы можете вычислить расстояние от каждой записи до всех метамодов, используя любую из предоставленных функций расстояния:

hamming_dissim(record, cluster_metamodes)
frequency_based_dissim(record, cluster_metamodes)

Более подробный пример сейчас предоставлен на github.

Кроме этого, сейчас есть еще две функции, а именно get_modes и get_mode_indexes. Первая вернет вам список мод (не метамодов!), т.е. все центры всех кластеров во всех подмножествах данных (которые были кластеризованы индивидуально).
Вторая вернет вам список с соответствующим идентификатором моды (который является глобально уникальным) для каждой оригинальной записи.

Если у вас будет 100 записей в ваших данных и вы запустите pyspark-kmetamodes с 5 партиями, размером партии 20 и n_modes = 2, это приведет к:

cluster_metamodes, содержащий 2 элемента (2 метамоды, вычисленные из 10 мод)
get_modes вернет вам список с 10 элементами (5 партий x 2 мода на партию = 10 мод)
get_mode_indexes вернет вам 100 элементов, где каждый элемент будет содержать соответствующий идентификатор моды (учитывая, что есть 10 мод), get_mode_indexes()[9] должен содержать идентификатор моды для 10-й записи из анализируемого набора данных.

Реализация K-модов в pyspark

Вопрос или проблема

Ответ или решение

Реализация K-Modes в PySpark

Введение

Подготовка данных

Импорт библиотек и реализация K-Modes

Выполнение K-Modes

Выходные данные: cluster_metamodes

Использование метамодов

Пример применения

Заключение