Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)

Question 1

Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X.

Моя первая идея заключалась в следующем:

собрать релевантные переменные для клиентов, которые уже купили продукт X (набор данных A)
провести кластерный анализ этого набора данных, чтобы создать персонажи клиентов для набора данных A
собрать те же переменные для клиентов, которые не купили продукт X (набор данных B)
и, наконец, измерить расстояние между клиентами в наборе данных B до центроидов медиоидов сгенерированных кластеров набора данных A

К сожалению, это менее просто, чем я думал:

Во-первых, мне нужно будет кластеризовать категориальные и числовые данные. Поэтому я вычислю расстояние Говера, чтобы получить матрицу несхожести между точками данных набора данных A, которую затем я кластеризую методом PAM (разделение по медиоидам). Я не знаю, как применить точки данных набора данных B, чтобы определить расстояние до медиоидов PAM, потому что эти медиоиды относятся к матрице несхожести набора данных A, а не к фактическим точкам данных.
Во-вторых, сгенерированные кластеры набора данных A менее описательны, чем ожидалось.

В завершение, я хотел бы получить второе мнение. Правильный ли путь я описал для решения задачи? Или у вас есть другие идеи?

Буду рад вашему мнению – всего наилучшего.

Question 2

Если я правильно понимаю ваш вопрос, у вас есть две группы людей: Группа A, каждый из которых купил продукт, скажем, йогурт; и Группа B, каждый из которых не купил йогурт. Ваша задача – найти всех людей в Группе B, которые, вероятно, купят ваш йогурт, если у них профили похожи на профили людей в Группе A.

Это кажется очень распространенной проблемой в причинной индукции, где вам нужно сопоставить людей, получивших лечение, с контрольной группой, но поскольку один человек не может быть и леченым, и нелеченым, нам нужно найти “похожие” люди с обеих сторон, чтобы они были сопоставимыми (с точки зрения их характеристик или переменных), чтобы мы могли сделать причинный вывод оттуда.

Теперь, возвращаясь к вашей проблеме, я не думаю, что необходимо делать кластеризацию для сопоставления. Вместо этого вы могли бы рассмотреть подход “сопоставления”, который обычно используется для причинной индукции. Вот пакет r, который приходит мне на ум: MatchIt.
По сути, что вам нужно сделать, так это рассмотреть Группу A как лечение, а Группу B как контроль. Я верю, что они предлагают множество различных способов алгоритма сопоставления, и вы, безусловно, можете поэкспериментировать, чтобы увидеть, какой из них работает для вас лучше всего.

Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)

Вопрос или проблема

Ответ или решение

Анализ существующей стратегии

Возможные корректировки подхода

1. Метод сопоставления

2. Использование многомерной шкалы

3. Улучшение описательности данных

4. Апробация полученных результатов

Заключение