Методы рекомендаций на базе машинного обучения, где не все пользователи находятся в обучающем наборе данных.

Содержание

Вопрос или проблема
Ответ или решение
Рекомендательные техники машинного обучения: Решение проблемы с отсутствием пользователей в обучающем наборе данных
1. Понимание проблемы
2. Использование контентной фильтрации
3. Гибридные системы рекомендаций
4. Обработка новых данных
5. Почти идеальное решение: Классификация и регрессия
Заключение

Вопрос или проблема

У меня есть список заказов, который содержит список товаров.

Мне нужно использовать машинное обучение, чтобы предлагать клиентам другие товары, основываясь исключительно на их корзине на момент оформления заказа, учитывая историю размещенных заказов.

В идеале это должно быть сделано с помощью ML.NET.

Я попробовал несколько вариантов матричной факторизации, но чтобы предсказать больше товаров для клиента, начальная корзина должна быть в обучающем наборе. Я не могу переобучать модель каждый раз, когда размещается заказ, это займет много времени.

Я неправильно подхожу к этому? Есть ли другие техники, которые будут работать лучше, или я что-то упустил в матричной факторизации?

Большое спасибо

Допустим, у пользователя есть предыдущая корзина такая item1, item2, item3. Ваш обучающий набор должен иметь следующие подмножества (X, Y), где Y – это предсказанное подмножество:

X=(item1), Y=(item2, item3)
X=(item2), Y=(item1, item3)
X=(item3), Y=(item1, item2)
X=(item1, item2), Y=(item3)
X=(item2, item3), Y=(item1)
X=(item1, item3), Y=(item2)

Вы это сделали? С этой техникой вам не нужно будет так часто переобучать модель. Также для рекомендательных систем всегда лучше иметь хотя бы один контентный рекомендатор и “популярный/часто встречающийся” рекомендатор, чем делать гибридный с двумя предыдущими.

Ответ или решение

Рекомендательные техники машинного обучения: Решение проблемы с отсутствием пользователей в обучающем наборе данных

В современном мире интернет-коммерции эффективные рекомендации товаров могут существенно увеличить продажи и улучшить пользовательский опыт. Однако, когда речь идет о рекомендациях для пользователей, которых нет в обучающем наборе данных, задача становится нетривиальной. Давайте разберем возможные подходы к решению этой проблемы, особенно в контексте использования ML.NET.

1. Понимание проблемы

Ваш сценарий заключается в следующем: у вас есть список заказов, где каждая корзина содержит несколько товаров. Основной задачей является предсказание рекомендуемых товаров на основе текущей корзины пользователя, учитывая при этом историю заказов.

Проблема заключается в том, что многие методы, такие как матричная факторизация, требуют наличия пользователей или товаров в обучающем наборе данных. Следовательно, если новый пользователь (или магазин) не представлен в обучающем наборе, математические модели не смогут предоставлять адекватные рекомендации.

2. Использование контентной фильтрации

Одним из методов, которые стоит рассмотреть, является контентная фильтрация. Этот метод основывается на анализе атрибутов товаров или пользовательских предпочтений. Для ваших рекомендаций следует:

Собирать метаданные о товарах (категории, характеристики, цена и т.д.).
Использовать эти метаданные для создания векторов признаков товаров.
Применять алгоритмы, такие как TF-IDF, для анализа текстовой информации о товарах и построения профиля пользователя на основе выбранных товаров в корзине.

С помощью контентной фильтрации вы сможете рекомендовать товары, схожие с теми, что уже есть в корзине, и которые соответствуют интересам пользователя, даже если он не присутствовал в обучающем наборе.

3. Гибридные системы рекомендаций

Гибридные системы, сочетающие несколько подходов, могут значительно повысить качество рекомендаций. Например, вы можете объединить:

Популярные товары: Рекомендации на основе самых часто покупаемых товаров. Это универсальный и простой подход, который может служить хорошим началом, пока рекомендации на основе обучения не начнут продуктивно работать.
Контентные рекомендации: Как уже упоминалось, эти рекомендации основаны на характеристиках товаров и могут помочь в подборе схожих товаров.

Гибридные системы позволяют использовать сильные стороны каждого подхода и минимизировать их недостатки.

4. Обработка новых данных

Необходимо заранее подготовить систему, способную обрабатывать поступающие данные и обновляться по мере необходимости. Ваше обучение не обязательно должно происходить каждый раз после заказа, но регулярное обновление модели может помочь адаптироваться к изменениям в поведении потребителей и популярности товаров.

Предобученные модели: Сохраните модели на этапе тренировок и используйте их для предсказаний, когда появится новая корзина. Это позволяет избежать необходимости повторного обучения всю модель при каждом новом заказе.

5. Почти идеальное решение: Классификация и регрессия

Также можно рассмотреть возможность применения методов классификации и регрессии для предсказания вероятности покупки определенного товара на основе анализа предыдущих данных:

Классификация: Чтобы определить, какие товары, вероятно, будут куплены в сочетании с уже существующими в корзине.
Регрессия: Для прогнозирования вероятного количества каждого товарного наименования, что даст более тонкое представление о предпочтениях пользователей.

Заключение

Ваш подход к созданию системы рекомендаций не обязательно является неверным, однако недостаток пользователей в обучающем наборе данных действительно является препятствием. Подходы, такие как контентная фильтрация, создание гибридных рекомендаций и использование предобученных моделей, позволят вам преодолеть эти ограничения. Совмещая указанные техники, можно не только улучшить точность рекомендаций, но и создать адаптивную систему, способную быстро реагировать на изменения в предпочтениях пользователей.

В качестве последнего совета, не забывайте о тестировании различных подходов на реальных данных и мониторинге их эффективности. Это даст вам возможность постепенно улучшать вашу систему рекомендаций с учетом реальных условий и предпочтений ваших клиентов.