Улучшение матричной факторизации

Question 1

Я использую матричное разложение SGD (python) с использованием набора данных movielens для создания рекомендаций. У меня есть веб-сайт, который позволяет пользователям оставлять отзывы, которые могут быть положительными или отрицательными относительно того, является ли элемент хорошей рекомендацией для конкретного фильма.

Мне интересно, могу ли я использовать этот отзыв в своем матричном разложении. Я не был на 100% уверен, как мне действовать.

Например, у меня будет вектор, подобный этому:

Где m2-m1 — это оценка 5, так что в примере, когда никто не оценил его отрицательно, 5 человек считают его хорошим. А для m2-m3 оценка -4, что означает, что рекомендация плохая.

Любая помощь будет очень ценна.

Исправление: ответ на вопрос

В настоящее время я использую разреженную матрицу для оценок пользователей и предметов и использую смещение.

Я пытался добавить дополнительные источники ввода и использую следующее для создания атрибутной матрицы, содержащей представление жанра:

for genre in item_genres:
       genres[genre] = 1
       self.attribute_item_matrix[i] = sum(list(genres.values()))


 pred = self.global_mean + self.bias_user[u] + self.bias_item[i] +np.dot(self.P[u, :],(self.Q[:, i]+self.attribute_item_matrix[i]))

Однако я не думаю, что это правильно, так как в конечном итоге это приводит к ошибке nan.

Я следую этой статье Техники матричного разложения для рекомендательных систем

Спасибо

Question 2

На мой взгляд, вам лучше использовать матрицу пользователь–фильм, чтобы создать разреженную матрицу, которая может быть более значимой. Делая это, если вы уже знаете полиarity выборов, т.е. положительный, отрицательный или нейтральный, вы также можете иметь некоторый интенсивный балл нравится или не нравится, как в случае рейтинг. Теперь, если вы хотите просто классифицировать их как нравится, нейтральный и не нравится, вы можете присвоить 1, 0 и -1 соответственно. Этот метод может иметь большее значение, когда у вас много фильмов и много пользователей. Более того, это может помочь вам установить отношения пользователь-пользователь, фильм-пользователь и фильм-фильм. Эти отношения могут помочь вам лучше понять и исследовать рекомендательные системы.

     m1 m2 m3 m4
u1 -1   0  -1  1
u2  1   1  -1  0
u3  0   0   1  0
u4  -1  1   1   0

Если вы хотите добавить рейтинг вместо просто поля, просто добавьте числа в диапазоне 0-1. Лично я работал над ними, чтобы написать гибридные рекомендательные системы, которые совмещают как коллаборативную фильтрацию, так и контекстную фильтрацию. Я бы предложил вам больше работать над отношениями и попробовать исследовать следующие шаги, такие как возможность предвзятости нравится или не нравится, ассоциация информации о фильмах/влияние актёров-режиссёров и сходство в фильмах и т. д. Надеюсь, это объяснение поможет.

Question 3

Существуют некоторые модели разложения, которые работают примерно так, вы можете поискать ‘на основе сессий’, ‘на основе корзины’, ‘последовательные’ и другие. Но, как правило, они не показывают очень хорошие результаты. Вы также можете использовать эти данные для создания модели классификации или регрессии, а затем смешать их с обычными триплетами пользователь-объект-рейтинг в какой-то гибридной модели.

Улучшение матричной факторизации

Вопрос или проблема

Ответ или решение

Улучшение матричной факторизации для системы рекомендаций

1. Понимание проблемы

2. Модификация матрицы пользователей и фильмов

3. Встраивание атрибутов фильмов

4. Гибридная модель

5. Интеграция дополнительных источников данных

Заключение