Определение похожих пользователей по их поведению на сайте.

Содержание

Вопрос или проблема
Ответ или решение
Анализ текущей методики
Разбор сильных и слабых сторон
Альтернативные подходы и рекомендации

Вопрос или проблема

Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая может для данного пользователя найти набор похожих пользователей на основе их поведения на сайте.

Моя текущая идея, как это сделать, состоит в следующем. Прежде всего, я хочу проанализировать сходство контролов, с которыми взаимодействуют пользователи. Как часть данных действий пользователей, у меня есть текст на контроле, с которым взаимодействовал пользователь. Я хочу дополнить этот текст некоторым контекстом, таким как тип действия, тип контроля, возможно, адрес страницы и прочее. Затем я хочу взять группу последовательных цепочек событий для каждого пользователя, объединить дополненные тексты для каждой цепочки и отправить результат в предварительно обученную трансформерную модель, чтобы сформировать векторное представление. Затем сохранить эти вектора в векторной базе данных. Когда система получает запрос на поиск пользователей, похожих на данного, она берет n векторов, соответствующих этому пользователю, затем находит ближайшие другие векторы пользователей по косинусному сходству для каждого взятого вектора. Затем объединяет пользователей всех найденных векторов и выдает их в качестве ответа.

Отдельно от этого я хочу агрегировать некоторые общие статистические данные для пользователей, такие как количество событий определенного типа за период, количество разных страниц, посещенных за период, и другие характеристики, которые я могу подсчитать. Храните эти данные отдельно и, когда запрос обрабатывается, ищите ближайшие к вектору предоставленного пользователя среди других, скажем, общих статистических векторов, возьмите пользователей, соответствующих этим векторами, и прикрепите их к ответу на запрос.

Я был бы благодарен за указание на плюсы и минусы, особенно на минусы этой идеи. Насколько я исследовал, поиск похожих пользователей или продуктов чаще всего реализуется как построение каким-либо образом векторных представлений для них и поиск по расстоянию, но я мог не заметить хороший способ создать такие вектора из данных о действиях пользователей. Я также был бы признателен за указание на хорошие подходы для создания векторных представлений пользователей из данных о действиях пользователей.

Ответ или решение

Для определения пользователей с похожим поведением на веб-сайте, предлагаю детально рассмотреть предложенную методику и обсудить ее сильные и слабые стороны, а также возможные усовершенствования.

Анализ текущей методики

Анализ сходства по взаимодействиям с элементами управления:
Вы собираетесь изучать текстовые данные взаимодействий пользователей с элементами управления и обогащать их контекстной информацией, такой как тип действия, тип элемента управления, адрес страницы и прочее. Это важный шаг, так как контекстualизация помогает создать более точное представление о поведении пользователя.
Формирование цепочек событий и использование трансформера:
Объединение цепочек событий и их обработка с помощью предобученного трансформера для создания векторных представлений — мощный метод. Это позволяет получить емкие и информативные эмбеддинги, которые будут учитывать сложные закономерности в поведении пользователей.
Хранение эмбеддингов и поиск по сходству:
Хранение эмбеддингов в векторной базе данных и использование косинусного сходства для определения похожих векторов — распространенная практика в задачах такого рода. Этот подход позволяет эффективно находить ближайших соседей, что делает его практичным для крупных данных.

Разбор сильных и слабых сторон

Плюсы:

Глубина анализа: Контекстуализация данных и использование трансформеров дает более точное понимание поведения пользователей.
Масштабируемость: Векторные базы данных хорошо подходят для работы с большими объемами данных и обеспечивают высокую скорость поиска.

Минусы:

Требуется значительное количество вычислительных ресурсов: Обучение и работа с моделью трансформера могут быть ресурсоемкими.
Сложность настройки: Необходимо точно подобрать параметры модели и схему контекстуализации для достижения высоких результатов.

Альтернативные подходы и рекомендации

Кластеризация событий: Используйте технологии кластеризации (например, K-Means, DBSCAN), чтобы выявить естественные группы пользователей на основе их действий. Это может ускорить процесс поиска похожих пользователей.
Учет временных характеристик: Включите временные аспекты поведения в модель — время суток или день недели, в который происходят действия, что может дать более полное представление о пользователях.
Обогащение данных: Используйте дополнительные источники данных (например, данные из аналитических систем), чтобы более полно охарактеризовать пользователя.
A/B тестирование: Протестируйте разные подходы к построению векторных представлений и оцените их эффективность через A/B тесты, чтобы выбрать наиболее результативную модель.

Оптимизация процесса поиска пользователей с похожим поведением требует постоянного тестирования и адаптации методик для достижения высоких результатов. Успехов в создании системы персонализированных рекомендаций!