Использование отрицательного коэффициента корреляции в алгоритме Пирсона для рекомендательных систем

Вопрос или проблема

Я جديد в системах рекомендаций и пытаюсь найти похожих пользователей на базовых пользователей для фильтрации на основе пользователей.

Когда я вычислял коэффициент сходства между двумя пользователями (на основе их оценок с использованием алгоритма Пирсона [или взвешенного алгоритма Пирсона Ресника]), я получал коэффициент сходства от -1 до 1.

Стоит ли нормализовать эти значения до 0-1 (-1 станет 0, а 1 останется 1), чтобы сделать их сопоставимыми с другими алгоритмами?

На самом деле, я пытался построить рекомендации с отрицательным коэффициентом сходства пользователя, и рассчитанная/предсказанная оценка также могла быть отрицательной, что не имеет смысла.

Следует ли мне нормализовать/масштабировать «-1 до 1» до «0 до 1» или отсеять всех пользователей с коэффициентами сходства ниже 0?

(возможно, вопрос также может быть: «Каких пользователей следует взять за наставников для рекомендации новых элементов на основе коэффициента сходства от -1 до 1? Или мне следует взять топ n пользователей с наибольшим коэффициентом сходства?»)

Одно, что вы можете сделать, это разделить вклады:

  • a) у кого положительная корреляция с вами
  • b) у кого отрицательная корреляция с вами

Тогда вы можете:

  1. Предсказать оценку, используя только пользователей из a) $\to$ у них будет положительная корреляция, это положительные веса. Назовем это $\hat{r}_a$
  2. Предсказать оценку, используя только пользователей из b) $\to$ в этом случае, считайте веса положительными (даже если они имеют отрицательную корреляцию). Назовем это $\hat{r}_b$
  3. Конечная предсказанная оценка $\hat{r} = \frac{\hat{r}_a – \hat{r}_b}{2}$

Ответ или решение

Использование отрицательного коэффициента корреляции в алгоритме Пирсона для рекомендательных систем

В современном мире рекомендательные системы играют ключевую роль в пользовательском опыте, предлагая персонализированные рекомендации на основе анализа данных. В контексте пользовательской фильтрации на основе сходства, алгоритм Пирсона часто применяется для оценки схожести между пользователями. Результат этого алгоритма может варьироваться от -1 до 1, и ваша задача состоит в интерпретации отрицательных значений для оптимизации рекомендаций.

Значение коэффициента корреляции

Коэффициент корреляции Пирсона отражает степень линейной зависимости между двумя переменными. Значения:

  • 1: Полная положительная зависимость
  • 0: Отсутствие зависимости
  • -1: Полная отрицательная зависимость

Влияние отрицательных значений на рекомендации

Полученные отрицательные коэффициенты корреляции могут свидетельствовать о том, что пользователи имеют противоположные предпочтения. Например, если один пользователь предпочитает жесткий рок, а другой — классику, это может отразиться на их оценках различных жанров музыки. Использовать пользователей с отрицательной симметрией в рекомендациях может быть рискованно, так как они могут не соответствовать интересам целевого пользователя.

Подходы к обработке отрицательных значений

  1. Нормализация значений от -1 до 1 к диапазону от 0 до 1:

    • При преобразовании значений вы преобразуете отрицательные коэффициенты в значение 0, а положительные — в диапазон от 0 до 1. Однако такой подход может исказить смысл этих значений, так как он устраняет различия между пользователями с отрицательной и положительной корреляцией.
  2. Отказ от пользователей с отрицательными коэффициентами:

    • Полное игнорирование пользователей с отрицательной корреляцией может привести к потерям информации. Тем не менее, не всякий негативный корреляционный пользователь должен быть исключен. Некоторые из них могут предоставлять полезные данные для других подсчетов.
  3. Разделение пользователей на группы:

    • Рассмотрите возможность выделения пользователей с положительными и отрицательными корреляциями. Рекомендации можно построить следующим образом:
      • Предсказывайте оценку с использованием только пользователей с положительными коэффициентами (обозначим как $\hat{r}_a$).
      • Для пользователей с отрицательными корреляциями используйте их коэффициенты как положительные (обозначим как $\hat{r}_b$).
      • Финальная предсказанная оценка может быть рассчитана по формуле:
        $$
        \hat{r} = \frac{\hat{r}_a – \hat{r}_b}{2}
        $$

Этот подход позволяет использовать данные пользователей с отрицательной корреляцией, при этом сохраняя их ценность.

Заключение

В конечном счете, использование коэффициента корреляции Пирсона в рекомендательных системах требует тщательного подхода к обработке отрицательных значений. Простая нормализация может не всегда быть правильным выбором. Создание категории пользователей с положительными и отрицательными коэффициентами предоставляет более нюансированный способ для точной настройки рекомендаций. Используйте разнообразные стратегии для достижения оптимальных результатов и предлагайте вашим пользователям действительно персонализированный опыт.

Оцените материал
Добавить комментарий

Капча загружается...