Понимание выхода softmax в рекомендательной системе YouTube

Question 1

Этот вопрос задавали раньше, но я не видел на него удовлетворительного ответа.

Я читаю документ YouTube о их системе рекомендаций. Система состоит из двух элементов, первый из которых — это DNN, генерирующая 100 “кандидатных” видео, которые затем комбинируются с кандидатами из других источников и ранжируются вторым DNN. В документе говорится, что они рассматривают задачу генерации кандидатов как экстремальную многоклассовую классификацию с использованием Softmax. Этот подход понятен; индексы N наибольших значений в выходе Softmax становятся N предсказанными кандидатами — проще простого.

Однако, читая дальше в документе, я начал путаться в том, что точно делает их сеть. Они предоставляют изображение структуры своей сети:

И из этого изображения видно, что есть целый другой шаг за пределами Softmax слоя, что я не понимаю. Также в документе приводится следующая цитата:

Слой Softmax выдает многономинальное распределение по тем же 1M видео классам с размерностью 256 (что можно рассматривать как отдельное видео представление).

и также что:

Поскольку откалиброванные вероятности от выходного слоя Softmax не нужны во время обслуживания, проблема оценки сводится к поиску ближайших соседей в пространстве скалярного произведения, для чего можно использовать библиотеки общего назначения.

Но я запутался в том, что они на самом деле реализуют здесь. Утверждение, что слой Softmax выдает...с размерностью 256, подразумевает для меня, что у них действительно есть финальный слой в виде Dense(256, activation='softmax') вместо Dense(n_classes..., однако присутствие “вероятностей классов” на изображении делает это невозможным, поскольку нельзя преобразовать такое представление в вероятности классов.

Итак, я действительно запутался; кто-нибудь знает, как точно интерпретировать то, что здесь делается?

Question 2

Часть путаницы возникает из-за различных процессов предсказания, используемых для обучения и обслуживания.

Softmax используется в процессе обучения для создания предсказаний для 1 миллиона видеокатегорий. Softmax упрощает обучение градиентов нейросети и хорошо работает в библиотеках глубокого обучения.

Эти 1 миллион видеокатегорий также встраиваются в 256-мерное пространство. Во время обслуживания предсказание теперь осуществляется как поиск ближайших соседей. Поиск ближайших соседей быстрее, так как это операция скалярного произведения и может использовать библиотеки общего назначения.

Question 3

Я не полностью уверен, но вот что я понимаю. Слой Softmax используется только на стадии обучения, чтобы выучить все параметры модели, особенно финальный ReLu слой и видео представления.

Во время инференса нас действительно не интересует выход Softmax. Финальный ReLu слой имеет размер 256, как видно в Таблице 1 в документе. Они говорят, что финальный ReLu слой можно рассматривать как вектор пользователя. Я не знаю почему, но поскольку обученный финальный ReLu слой имеет тот же размер, что и видео представления, они отображаются в одном пространстве для вычисления приближенных ближайших соседей для вектора пользователя. Таким образом, они пытаются найти наиболее похожие видео представления на вектор пользователя.

Question 4

Видео, как показано на картинке, — это просто представления последнего слоя. Слой Softmax — это 256x10M, каждая строка — это видео представление. Эти 10M представлений хранятся в индексе.

На этапе инференса 256-вектор пользователя извлекается и сравнивается с видео представлениями.

Понимание выхода softmax в рекомендательной системе YouTube

Вопрос или проблема

Ответ или решение