Вопрос или проблема
В разделе 19.4 сайта https://animlbook.com/recommender_systems/recommendation/index.html предлагается матрица со-occurence, а схожесть Джаккара является одним из предложенных методов нормализации.
Другие распространенные методы нормализации – это PMI или NPMI (https://en.wikipedia.org/wiki/Pointwise_mutual_information). Некоторые другие люди предлагают нормализацию по строкам.
Прошу предложить:
- Методы нормализации со-occurences
- Обработка глобального смещения популярности.
PS: Функция элемента в моем случае имеет высокую кардинальность.
Ответ или решение
Надежные методы нормализации и обработки популярности в матрице совместного появления предметов
В современном мире рекомендательных систем качественная обработка данных имеет ключевое значение. Ваша задача нормализации матрицы совместного появления и обработки глобальной популярности требует тщательного выбора методов, учитывающих специфику вашего проекта, особенно в условиях высокой кардинальности признаков предметов.
1. Методы нормализации совместных появлений
Существует несколько распространенных методов нормализации в контексте матриц совместного появления, и выбор подходящего из них зависит от особенностей ваших данных.
-
Сравнение по Джаккарду (Jaccard Similarity): Этот метод позволяет оценить сходство между парами предметов, основываясь на частоте их совместного появления. Он определяется как отношение квадрата числа совместных взаимодействий к количеству уникальных взаимодействий. Это полезный метод, особенно если ваша задача требует учета редких, но важных взаимодействий.
-
Точечная взаимная информация (PMI) и нормированная PMI (NPMI): PMI предлагает более глубокое понимание взаимосвязи между предметами, исключая влияние популярности. Расчет PMI может выявить пары предметов, которые часто встречаются вместе, и групповую популярность. NPMI адаптирует PMI к масштабу, что делает его более подходящим для высококардинальных наборов данных. Это обеспечивает лучшее представление о реальном сходстве между предметами.
-
Нормализация по строкам: Этот метод требует деления значений на суммы по строкам. Он помогает избежать проблемы с различием в масштабах предметов, что делает данные более сравнимыми. Однако, данный метод иногда может игнорировать редкое, но важное взаимодействие.
Рекомендуется использование комбинации этих методов, где каждый из них находит свое применение в зависимости от задач и особенностей ваших данных.
2. Обработка глобальной популярности
Глобальная популярность может искажать рекомендации, так как основные объекты получают чрезмерное внимание. Поэтому управление этой проблемой критически важно для повышения качества рекомендаций.
-
Подсчет "рентабельности" (Profitability Weighting): Этот метод включает в себя применение весов к популярным предметам, что снижает их влияние на итоговую оценку. Это позволяет акцентировать внимание на менее известном, но более целевом контенте.
-
Фильтрация по частоте: Подход, при котором удаляются предметы, превышающие определенный порог популярности, помогает сбалансировать влияние. Этот метод может быть особенно полезен при выборе редких, но значимых взаимодействий.
-
Кросс-ссылка по ненасытной популярности: Используйте алгоритмы, основанные на модели рекомендаций, которые учитывают не только совпадения, но и популярность и уникальность. Это поможет повысить разнообразие рекомендаций, что приводит к более высокой заинтересованности пользователей.
В заключение, для повышения надежности нормализации в матрицах совместного появления и обработки глобальной популярности, я настоятельно рекомендую тщательно комбинировать методы нормализации (Jaccard, PMI, NPMI, нормализация по строкам) и применять стратегии фильтрации для уменьшения влияния популярности. Такой подход позволит вам добиться более точных и эффективных рекомендаций для пользователей, учитывая специфику вашего бизнеса.