Нейронная сеть – Разреженность коллаборативной фильтрации и моделирование задачи прогноза

Question 1

Я довольно новичок в машинном обучении и, кстати, в нейронных сетях, но последние несколько дней решил попробовать решить довольно классическую и практическую задачу нейронных сетей/машинного обучения, такую как рекомендательные системы.

Извините, если это ненужно широкий вопрос, но мне было трудно найти ресурсы, отвечающие на этот конкретный вопрос. Мой основной вопрос заключается в том, как вообще моделировать проблему (или какие направления/советы существуют по ее моделированию)?

Пусть $M$ обозначает набор всех фильмов, которые вы можете рекомендовать, каждый из которых имеет свой идентификатор. Как именно будет выглядеть ввод в модель (и вывод) и как вы будете разделять обучающие данные и наблюдаемые результаты? Например, если у меня есть строка обучающих данных (строка размера $|M|$, и каждый элемент представляет собой число от $1$ до $10$, обозначающее оценку пользователя, или $0$, если пользователь еще не видел фильм), просто удалить, скажем, половину оценок пользователя в строке (оценки от $1$ до $10$, которые значимы) и заменить их на $0$ в строке обучения, а затем в моей наблюдаемой строке (для тестирования) будет вся строка без пропущенных оценок, как показано ниже?

$$\underbrace{[9 \ 0 \ 0 \ 5 \ 7 \ 0 \ … \ 8 \ 0 \ 10 \ 0]}_{Информация} \rightarrow \underbrace{[0 \ 0 \ 0 \ 0 \ 0 \ 0 \ … \ 8 \ 0 \ 10 \ 0]}_{Обучение} \rightarrow \underbrace{[9 \ 0 \ 0 \ 5 \ 7 \ 0 \ … \ 8 \ 0 \ 10 \ 0]}_{Наблюдение} $$

Несколько очевидных наивных подходов:

Размер ввода = $|M|$, размер вывода = $|M|$

Каждый входной нейрон получает соответствующую пользовательскую оценку для $i^{th}$ фильма. Предположить некоторое количество промежуточных слоев, и затем мы добираемся до размера выхода, который представляет собой $|M|$ выходных нейронов, каждый из которых пытается предсказать оценку пользователя для этого фильма. Это кажется странным, потому что почти все входные нейроны получат $0$, и почти все выходные нейроны попытаются выдать $0$ (так как, вероятно, пользователь видел только незначительную часть всех $|M|$ фильмов). Это не похоже на то, чтобы нейронная сеть смогла выучить что-то полезное. И что делать с фильмами, которые пользователь не видел? Просто считать, что это $0$ потеря? Таким образом, функция потерь для нейрона $i$ просто:
$$\text{Потеря}(y^{(i)}) = 0 \ \text{если пользователь не видел i-й фильм, иначе: } \ \phi{(y^{(i)}, t^{(i)})}$$

Где $\phi$ – это некоторая функция потерь предсказанного выхода нейрона $y^{(i)}$ и наблюдаемого значения (фактическая оценка пользователя) $t^{(i)}$. Мне трудно поверить, что это приведет к каким-то полезным оценкам, поскольку потеря не имеет никакого эффекта на бессмысленные выходы моей нейронной сети (это не влияет на значения i-х нейронов, если пользователь еще не видел фильм). Это также создает проблему того, как тогда делать предсказание. Просто взять все самые высокие предсказанные значения от нейронной сети и вернуть соответствующие фильмы?

Из-за вышеописанных проблем я попытался выразить модель по-другому, но не думаю, что существует способ преодолеть разреженность данных и тот факт, что размер вывода должен быть $|M|$, так как я не могу пытаться предсказать дискретные целочисленные идентификаторы фильмов. Кто-то может просветить меня по этой теме или предоставить какие-либо возможные инсайты по очевидным ошибкам, которые я совершаю?

Question 2

Вам не обязательно использовать полные входные и выходные вектора, чтобы предсказать оценки для пользователя.

Используйте идею вложений и создайте пары (user_id, movie_id) для обучения. Таким образом, ваш ввод может выглядеть так: (112,1456)=7, это означает, что пользователь с идентификатором 112 посмотрел фильм номер 1456 и оценка была 7. Так что размер вложения для пользователя — это |уникальные пользователи| и фильмы — |уникальные фильмы|, называем это |M|.

С помощью этого трюка мы изменили структуру проблемы на ту, что нам уже известна. Это регрессия!

Теперь вы можете добавить все смещения (и все, что пожелаете) к вложениям для фильмов и пользователей. Используйте известные функции потерь для регрессии, такие как RMSE, и все готово. Конечно, вы можете добавить другие линейные слои, relu и dropouts поверх этих вложений и сделать это так, как если бы это была полностью связанная нейронная сеть, и получить даже лучшие результаты.

Нейронная сеть – Разреженность коллаборативной фильтрации и моделирование задачи прогноза

Вопрос или проблема

Размер ввода = $|M|$, размер вывода = $|M|$

Ответ или решение

Разреженность данных в коллаборативной фильтрации

Моделирование задачи предсказания

Конкретное решение

Дополнительные улучшения