Наиболее надежный метод нормализации и обработки популярности в совместном появлении элементов?

Содержание

Вопрос или проблема
Ответ или решение
Надежные методы нормализации и обработки популярности в матрице совместного появления предметов
1. Методы нормализации совместных появлений
2. Обработка глобальной популярности

Вопрос или проблема

В разделе 19.4 сайта https://animlbook.com/recommender_systems/recommendation/index.html предлагается матрица со-occurence, а схожесть Джаккара является одним из предложенных методов нормализации.

Другие распространенные методы нормализации – это PMI или NPMI (https://en.wikipedia.org/wiki/Pointwise_mutual_information). Некоторые другие люди предлагают нормализацию по строкам.

Прошу предложить:

Методы нормализации со-occurences
Обработка глобального смещения популярности.

PS: Функция элемента в моем случае имеет высокую кардинальность.

Ответ или решение

Надежные методы нормализации и обработки популярности в матрице совместного появления предметов

В современном мире рекомендательных систем качественная обработка данных имеет ключевое значение. Ваша задача нормализации матрицы совместного появления и обработки глобальной популярности требует тщательного выбора методов, учитывающих специфику вашего проекта, особенно в условиях высокой кардинальности признаков предметов.

1. Методы нормализации совместных появлений

Существует несколько распространенных методов нормализации в контексте матриц совместного появления, и выбор подходящего из них зависит от особенностей ваших данных.

Сравнение по Джаккарду (Jaccard Similarity): Этот метод позволяет оценить сходство между парами предметов, основываясь на частоте их совместного появления. Он определяется как отношение квадрата числа совместных взаимодействий к количеству уникальных взаимодействий. Это полезный метод, особенно если ваша задача требует учета редких, но важных взаимодействий.
Точечная взаимная информация (PMI) и нормированная PMI (NPMI): PMI предлагает более глубокое понимание взаимосвязи между предметами, исключая влияние популярности. Расчет PMI может выявить пары предметов, которые часто встречаются вместе, и групповую популярность. NPMI адаптирует PMI к масштабу, что делает его более подходящим для высококардинальных наборов данных. Это обеспечивает лучшее представление о реальном сходстве между предметами.
Нормализация по строкам: Этот метод требует деления значений на суммы по строкам. Он помогает избежать проблемы с различием в масштабах предметов, что делает данные более сравнимыми. Однако, данный метод иногда может игнорировать редкое, но важное взаимодействие.

Рекомендуется использование комбинации этих методов, где каждый из них находит свое применение в зависимости от задач и особенностей ваших данных.

2. Обработка глобальной популярности

Глобальная популярность может искажать рекомендации, так как основные объекты получают чрезмерное внимание. Поэтому управление этой проблемой критически важно для повышения качества рекомендаций.

Подсчет "рентабельности" (Profitability Weighting): Этот метод включает в себя применение весов к популярным предметам, что снижает их влияние на итоговую оценку. Это позволяет акцентировать внимание на менее известном, но более целевом контенте.
Фильтрация по частоте: Подход, при котором удаляются предметы, превышающие определенный порог популярности, помогает сбалансировать влияние. Этот метод может быть особенно полезен при выборе редких, но значимых взаимодействий.
Кросс-ссылка по ненасытной популярности: Используйте алгоритмы, основанные на модели рекомендаций, которые учитывают не только совпадения, но и популярность и уникальность. Это поможет повысить разнообразие рекомендаций, что приводит к более высокой заинтересованности пользователей.

В заключение, для повышения надежности нормализации в матрицах совместного появления и обработки глобальной популярности, я настоятельно рекомендую тщательно комбинировать методы нормализации (Jaccard, PMI, NPMI, нормализация по строкам) и применять стратегии фильтрации для уменьшения влияния популярности. Такой подход позволит вам добиться более точных и эффективных рекомендаций для пользователей, учитывая специфику вашего бизнеса.