Какой алгоритм машинного обучения мне использовать для построения графика и прогнозирования местоположения клиента по сравнению с затраченными средствами?

Question 1

Я использую реальные CSV-файлы клиентов из моего интернет-магазина. Изначально я собирался использовать k-средние с 2 значениями. Я хочу, чтобы эти два значения были кодом провинции и суммой расходов в моем магазине. Это в конечном итоге покажет, какой регион тратит больше всего денег в моем магазине. Однако коды провинций представлены как ‘CA, QC, UT, …’ и на самом деле нельзя использовать строку для k-средних.

Я думал о том, чтобы присвоить каждому коду числовое значение и построить график таким образом, но не думаю, что это имеет смысл для k-средних. Есть идеи, как я могу реализовать машинное обучение другим способом? Я предоставлю образец своего очищенного CSV. Я не могу предоставить оригинал, так как это незаконно с моей стороны – раскрывать адреса клиентов.

Question 2

Ваша проблема, скорее всего, не требует решения с использованием машинного обучения. Если вас интересует задача «данный клиент из штата X, предсказать, сколько клиент потратит», вы можете вычислить медиану/среднее значение общих расходов для каждого штата. Рассмотрите возможность построения графика, чтобы отобразить как дисперсию, так и медиану/среднее значение, например, с помощью боксплота.

import seaborn as sns
import pandas as pd
df = pd.read_csv('data.csv')  
sns.boxplot(data=df, x="Код провинции", y="Всего потрачено")

Question 3

Сначала вам нужно определить вашу задачу. Хотите ли вы предсказать, сколько клиент потратит, основываясь на его местоположении, канале привлечения и некоторых других переменных, которые у вас могут быть, или хотите ли вы предсказать свои продажи для данного региона в определённый период времени? То есть, первый шаг вашего проекта по машинному обучению – определить вашу целевую переменную.

После того как вы определите свою проблему, создайте набор данных. Я предполагаю, что это будет достаточно просто для вас, так как вы можете экспортировать CSV из Shopify, так что у вас будут какие-то обучающие данные. Затем начните просто с этапа моделирования. Если вы новичок в машинном обучении, используйте «простые» алгоритмы, такие как линейная регрессия, деревья решений, логистическая регрессия, наивный Баес, KNN (имейте в виду, что не все они могут подойти для вашей проблемы – уделите время на изучение каждого из них). У вас, вероятно, будут некоторые категориальные переменные (регион, канал), поэтому потребуется выполнить некоторые предварительные этапы обработки. Я рекомендую вам ознакомиться с документацией sklearn, она дружелюбна к новичкам, но очень мощная и ценная. Там много примеров того, как использовать библиотеку.

В контексте ответа от @etet выше, я также думаю, что вы получите больше ценности от углубленного разведочного анализа. Начните с этого, а затем перейдите к машинному обучению.

Question 4

Позвольте мне сначала указать на проблему использования числового кодирования для кода провинции: не будет логической структуры при присвоении чисел провинциям, и таким образом, k-средние, учитывая непрерывные точки данных, попытаются осмыслить это закодированное значение, что не приведет к какой-либо значимой информации. Таким образом, прямые характеристики о провинции, такие как площадь и географические координаты провинции, окажутся более полезными, если вы хотите использовать это в качестве характеристики для чего-то вроде k-средних. Моя другая точка заключается в том, чтобы правильно сформулировать задачу и точно определить, что вы можете извлечь из имеющихся у вас данных; вам не нужна модель для анализа расходов, сгруппированных по коду провинции, как предлагали другие ответы.

Какой алгоритм машинного обучения мне использовать для построения графика и прогнозирования местоположения клиента по сравнению с затраченными средствами?

Вопрос или проблема

Ответ или решение

1. Постановка задачи

2. Исследовательский анализ данных

3. Выбор метода машинного обучения

Линейная регрессия

Классификация

4. Обработка категориальных данных

5. Рекомендации по дальнейшим шагам

Заключение