Сократите длину данных для эффективного обучения.

Question 1

У меня есть данные о покупках клиентов, в которых каждая строка указывает на товар, купленный клиентом. Проблема в том, что даже если клиент одновременно покупает пять товаров, то для этого будет пять разных строк, и в результате общее количество строк в данных стало слишком большим для обучения. Что я могу сделать, чтобы уменьшить объем данных, чтобы я мог эффективно их обучать. Просто для контекста проблемы, я хочу рекомендовать товары клиентам на основе их данных о покупках.

Размер набора данных: (7981262, 16)

Описание данных:

Переменная                                           Описание
customerID                                    уникальный ID клиента
DOB                                         дата рождения клиента
Gender                                               пол
State                                          штат клиента
PinCode                                почтовый индекс района, где живет клиент
transactionDate                                  дата транзакции
store_code                                 уникальный код магазина
store_description                             описание магазина
till_no                                       номер кассы в магазине
transaction_number_by_till                 уникальный номер транзакции по кассе, 
transactionDate, store_code
promo_code                      если использован промокод (предложение) в транзакции
promo_description                            описание предложения
product_code                               уникальный код купленного товара
product_description                       описание купленного товара
sale_price_after_promo                 цена продажи товара после применения 
акции
discountUsed                  после акции клиент применил эту скидку(-и) на транзакцию

Question 2

Если общий размер вашего набора данных слишком велик, возьмите случайную выборку в n%. Я предлагаю взять выборку из n% пользователей, а затем использовать все строки для каждого из этих выбранных пользователей. Если у вас есть временные метки, я дополнительно предлагаю разделить ваш набор для обучения/тестирования на основе времени. Например, для пользователя с 10 купленными товарами, обучайтесь на первых 8 товарах и пытайтесь предсказать последние 2 товара.

Question 3

Думаю, вы могли слышать о том, что называется Ассоциационным майнингом, даже если не знаете, пожалуйста, пройдите по ссылке.

Причина, по которой я это предлагаю, заключается в том, что перед тем, как передать сырые транзакции модели. Нам нужно преобразовать их в корзины, т.е. если клиент купил 3 товара, то все они будут относиться к одной и той же корзине, используя ID клиента (любой уникальный идентификатор).

Это можно сделать с помощью команды,

transDat <- as (myDataFrame, "transactions") # преобразовать в класс 'transactions'

Таким образом, вы получите корзины, которые напрямую являются вашим желаемым результатом. После этого вы можете напрямую применить Ассоциационный майнинг, чтобы получить желаемые рекомендации и выбрать Лучшие рекомендации.

Дайте знать, если у вас есть еще какие-либо сомнения.

Question 4

Вы можете проверить различные решения рекомендательных систем на Github или аналогичных платформах, которые используют фильтрацию на основе товаров или пользователей, которые будут учитывать такие наборы данных.

Сократите длину данных для эффективного обучения.

Вопрос или проблема

Ответ или решение

1. Преобразование данных в «корзины» покупок

2. Снижение размера с помощью случайной выборки

3. Временное разбиение на тренировочные и тестовые выборки

4. Применение методов Ассоциации

5. Использование систем рекомендаций

Заключение