Прогнозирование недавности-частоты-деньги (RFM) через классификацию характеристик клиентов

Question 1

У меня есть RFM модель, которую я использую для сегментации клиентов на основе RFM оценки. Что я хотел бы сделать:

Понять больше о характеристиках моих клиентов, чем просто их RFM оценка;
Суметь предсказать, к какому сегменту RFM, вероятно, будет относиться неклиент.

Для этого я планирую наложить другие данные, которые у меня есть о клиенте (демографические данные, насколько они используют наши другие услуги и т.д.) в качестве независимых переменных в задаче классификации с учителем, с моими RFM сегментами в качестве зависимых переменных. Затем я собираюсь использовать какую-то технику классификации (случайный лес и т.д.), чтобы построить предсказательную модель, которая даст мне:

Комбинацию независимых переменных, которые коррелируют с тем, что клиент находится в каком-либо конкретном RFM сегменте
Вероятность того, что неклиент окажется в каком-либо заданном RFM сегменте, учитывая независимые переменные (демографическая информация и т.д.)

Я также думаю использовать PCA, чтобы определить, какие из независимых переменных, по-видимому, имеют наибольшее влияние на то, в какой сегмент попадает клиент, перед началом классификации.

Я посмотрел вокруг и не вижу много примеров, когда люди используют RFM сегменты в качестве зависимых переменных в модели классификации.

Является ли это стоящим/научно обоснованным подходом, или я упускаю что-то, что делает этот подход неподходящим?

Question 2

В принципе, я не вижу никаких проблем с использованием RFM оценки в качестве зависимой переменной ($y$), поскольку это просто агрегированная или сбалансированная оценка R, F, M.

Я рекомендую использовать случайный лес или (основанное на деревьях) бустинг (например, xgboost, lightgbm), поскольку эти методы очень надежны и обычно дают относительно хорошие результаты (по сравнению с другими методами). Вы можете посмотреть “важность признаков” из случайного леса или бустинга, чтобы увидеть, какие переменные самые важные. Основной аспект, на который вам нужно обратить внимание в данный момент (как кажется), это то, имеют ли независимые переменные достаточную объяснительную мощность, чтобы построить правильную модель. Случайный лес кажется хорошим выбором для начала с учетом этого контекста.

Я бы не рекомендовал использовать PCA, поскольку PCA является техникой для уменьшения размерности. В сущности, PCA генерирует “новые” ортогональные признаки на основе оригинальных, обычно уменьшая общее количество признаков. Так что PCA полезен, когда есть много сильно коррелированных признаков или в случае, если признаков “слишком много”.

Вы также можете рассмотреть “каузальные” модели, похожие на линейные регрессионные модели. Эти модели могут сказать вам: “если $x$ изменится на какое-то значение, то $y$ изменится на $\beta$. Однако эти модели относительно сложные, и вам нужно учитывать множество факторов. Так что, вероятно, начните со стандартного предсказательного случайного леса и смотрите, как пойдет.

Прогнозирование недавности-частоты-деньги (RFM) через классификацию характеристик клиентов

Вопрос или проблема

Ответ или решение

Прогнозирование сегментов RFM через классификацию характеристик клиентов

Шаг 1: Определение задачи и цели

Шаг 2: Выбор метода классификации

Шаг 3: Подготовка данных

Шаг 4: Использование PCA в анализе признаков

Шаг 5: Оценка модели

Шаг 6: Интерпретация результатов

Заключение