Вопрос или проблема
Я جديد в системах рекомендаций и пытаюсь найти похожих пользователей на базовых пользователей для фильтрации на основе пользователей.
Когда я вычислял коэффициент сходства между двумя пользователями (на основе их оценок с использованием алгоритма Пирсона [или взвешенного алгоритма Пирсона Ресника]), я получал коэффициент сходства от -1 до 1.
Стоит ли нормализовать эти значения до 0-1 (-1 станет 0, а 1 останется 1), чтобы сделать их сопоставимыми с другими алгоритмами?
На самом деле, я пытался построить рекомендации с отрицательным коэффициентом сходства пользователя, и рассчитанная/предсказанная оценка также могла быть отрицательной, что не имеет смысла.
Следует ли мне нормализовать/масштабировать «-1 до 1» до «0 до 1» или отсеять всех пользователей с коэффициентами сходства ниже 0?
(возможно, вопрос также может быть: «Каких пользователей следует взять за наставников для рекомендации новых элементов на основе коэффициента сходства от -1 до 1? Или мне следует взять топ n пользователей с наибольшим коэффициентом сходства?»)
Одно, что вы можете сделать, это разделить вклады:
- a) у кого положительная корреляция с вами
- b) у кого отрицательная корреляция с вами
Тогда вы можете:
- Предсказать оценку, используя только пользователей из a) $\to$ у них будет положительная корреляция, это положительные веса. Назовем это $\hat{r}_a$
- Предсказать оценку, используя только пользователей из b) $\to$ в этом случае, считайте веса положительными (даже если они имеют отрицательную корреляцию). Назовем это $\hat{r}_b$
- Конечная предсказанная оценка $\hat{r} = \frac{\hat{r}_a – \hat{r}_b}{2}$
Ответ или решение
Использование отрицательного коэффициента корреляции в алгоритме Пирсона для рекомендательных систем
В современном мире рекомендательные системы играют ключевую роль в пользовательском опыте, предлагая персонализированные рекомендации на основе анализа данных. В контексте пользовательской фильтрации на основе сходства, алгоритм Пирсона часто применяется для оценки схожести между пользователями. Результат этого алгоритма может варьироваться от -1 до 1, и ваша задача состоит в интерпретации отрицательных значений для оптимизации рекомендаций.
Значение коэффициента корреляции
Коэффициент корреляции Пирсона отражает степень линейной зависимости между двумя переменными. Значения:
- 1: Полная положительная зависимость
- 0: Отсутствие зависимости
- -1: Полная отрицательная зависимость
Влияние отрицательных значений на рекомендации
Полученные отрицательные коэффициенты корреляции могут свидетельствовать о том, что пользователи имеют противоположные предпочтения. Например, если один пользователь предпочитает жесткий рок, а другой — классику, это может отразиться на их оценках различных жанров музыки. Использовать пользователей с отрицательной симметрией в рекомендациях может быть рискованно, так как они могут не соответствовать интересам целевого пользователя.
Подходы к обработке отрицательных значений
-
Нормализация значений от -1 до 1 к диапазону от 0 до 1:
- При преобразовании значений вы преобразуете отрицательные коэффициенты в значение 0, а положительные — в диапазон от 0 до 1. Однако такой подход может исказить смысл этих значений, так как он устраняет различия между пользователями с отрицательной и положительной корреляцией.
-
Отказ от пользователей с отрицательными коэффициентами:
- Полное игнорирование пользователей с отрицательной корреляцией может привести к потерям информации. Тем не менее, не всякий негативный корреляционный пользователь должен быть исключен. Некоторые из них могут предоставлять полезные данные для других подсчетов.
-
Разделение пользователей на группы:
- Рассмотрите возможность выделения пользователей с положительными и отрицательными корреляциями. Рекомендации можно построить следующим образом:
- Предсказывайте оценку с использованием только пользователей с положительными коэффициентами (обозначим как $\hat{r}_a$).
- Для пользователей с отрицательными корреляциями используйте их коэффициенты как положительные (обозначим как $\hat{r}_b$).
- Финальная предсказанная оценка может быть рассчитана по формуле:
$$
\hat{r} = \frac{\hat{r}_a – \hat{r}_b}{2}
$$
- Рассмотрите возможность выделения пользователей с положительными и отрицательными корреляциями. Рекомендации можно построить следующим образом:
Этот подход позволяет использовать данные пользователей с отрицательной корреляцией, при этом сохраняя их ценность.
Заключение
В конечном счете, использование коэффициента корреляции Пирсона в рекомендательных системах требует тщательного подхода к обработке отрицательных значений. Простая нормализация может не всегда быть правильным выбором. Создание категории пользователей с положительными и отрицательными коэффициентами предоставляет более нюансированный способ для точной настройки рекомендаций. Используйте разнообразные стратегии для достижения оптимальных результатов и предлагайте вашим пользователям действительно персонализированный опыт.