Наиболее надежный метод нормализации и обработки популярности в совместном появлении элементов?

Вопрос или проблема

В разделе 19.4 сайта https://animlbook.com/recommender_systems/recommendation/index.html предлагается матрица со-occurence, а схожесть Джаккара является одним из предложенных методов нормализации.

Другие распространенные методы нормализации – это PMI или NPMI (https://en.wikipedia.org/wiki/Pointwise_mutual_information). Некоторые другие люди предлагают нормализацию по строкам.

Прошу предложить:

  1. Методы нормализации со-occurences
  2. Обработка глобального смещения популярности.

PS: Функция элемента в моем случае имеет высокую кардинальность.

Ответ или решение

Надежные методы нормализации и обработки популярности в матрице совместного появления предметов

В современном мире рекомендательных систем качественная обработка данных имеет ключевое значение. Ваша задача нормализации матрицы совместного появления и обработки глобальной популярности требует тщательного выбора методов, учитывающих специфику вашего проекта, особенно в условиях высокой кардинальности признаков предметов.

1. Методы нормализации совместных появлений

Существует несколько распространенных методов нормализации в контексте матриц совместного появления, и выбор подходящего из них зависит от особенностей ваших данных.

  • Сравнение по Джаккарду (Jaccard Similarity): Этот метод позволяет оценить сходство между парами предметов, основываясь на частоте их совместного появления. Он определяется как отношение квадрата числа совместных взаимодействий к количеству уникальных взаимодействий. Это полезный метод, особенно если ваша задача требует учета редких, но важных взаимодействий.

  • Точечная взаимная информация (PMI) и нормированная PMI (NPMI): PMI предлагает более глубокое понимание взаимосвязи между предметами, исключая влияние популярности. Расчет PMI может выявить пары предметов, которые часто встречаются вместе, и групповую популярность. NPMI адаптирует PMI к масштабу, что делает его более подходящим для высококардинальных наборов данных. Это обеспечивает лучшее представление о реальном сходстве между предметами.

  • Нормализация по строкам: Этот метод требует деления значений на суммы по строкам. Он помогает избежать проблемы с различием в масштабах предметов, что делает данные более сравнимыми. Однако, данный метод иногда может игнорировать редкое, но важное взаимодействие.

Рекомендуется использование комбинации этих методов, где каждый из них находит свое применение в зависимости от задач и особенностей ваших данных.

2. Обработка глобальной популярности

Глобальная популярность может искажать рекомендации, так как основные объекты получают чрезмерное внимание. Поэтому управление этой проблемой критически важно для повышения качества рекомендаций.

  • Подсчет "рентабельности" (Profitability Weighting): Этот метод включает в себя применение весов к популярным предметам, что снижает их влияние на итоговую оценку. Это позволяет акцентировать внимание на менее известном, но более целевом контенте.

  • Фильтрация по частоте: Подход, при котором удаляются предметы, превышающие определенный порог популярности, помогает сбалансировать влияние. Этот метод может быть особенно полезен при выборе редких, но значимых взаимодействий.

  • Кросс-ссылка по ненасытной популярности: Используйте алгоритмы, основанные на модели рекомендаций, которые учитывают не только совпадения, но и популярность и уникальность. Это поможет повысить разнообразие рекомендаций, что приводит к более высокой заинтересованности пользователей.

В заключение, для повышения надежности нормализации в матрицах совместного появления и обработки глобальной популярности, я настоятельно рекомендую тщательно комбинировать методы нормализации (Jaccard, PMI, NPMI, нормализация по строкам) и применять стратегии фильтрации для уменьшения влияния популярности. Такой подход позволит вам добиться более точных и эффективных рекомендаций для пользователей, учитывая специфику вашего бизнеса.

Оцените материал
Добавить комментарий

Капча загружается...