Маскирование во время вывода трансформера?

Question

Я отправил следующий вопрос как ChatGPT, так и Deepseek.

“Предположим, что мы не обучаем большую языковую модель, а выполняем инференс. Модель уже сгенерировала последовательность [A,B,C] и собирается предсказать следующий токен D. Модель должна выполнить самовнимание на текущей последовательности перед генерацией D, если это правильно, так как B и C уже сгенерированы, даже несмотря на то, что они идут после A, будет ли A обращаться к B и C во время этого самовнимания?

Пожалуйста, ответьте, опираясь на свои знания, не делая никаких предположений.”

Я получил противоположные ответы.

ChatGPT:
Нет, во время инференса (авторегрессивного декодирования) токен A не будет учитывать B и C при предсказании токена D. Это связано с причинной маской, используемой в самовнимании.

Вот почему:

Причинное маскирование: Трансформеры используют нижнетреугольную маску во время инференса, чтобы каждый токен учитывал только себя и предыдущие токены, предотвращая утечку информации от будущих токенов.
Авторегрессивное декодирование: На каждом этапе генерации модель имеет доступ только к токенам, сгенерированным до текущего момента. При предсказании D модель заново вычисляет самовнимание для [A, B, C], но каждый токен может видеть только предыдущие токены.
Как это работает в данном случае:
При генерации B самовнимание применяется только к A.
При генерации C самовнимание применяется к A и B.
При генерации D самовнимание применяется к A, B и C, но A всё равно не может учитывать B или C — оно сохраняет то же распределение внимания, которое было у него при первом процессе.
Это ограничение гарантирует, что модель соблюдает авторегрессивное декодирование и предотвращает влияние будущей информации на прошлые вычисления.

Deepseek:
Да, во время инференса, когда модель уже сгенерировала последовательность [A, B, C] и собирается предсказать следующий токен D, она выполнит самовнимание на всю последовательность [A, B, C]. Это означает, что A будет учитывать B и C, и аналогично, B и C будут учитывать A и друг друга.

В самовнимании каждый токен в последовательности учитывает все другие токены в последовательности, включая те, которые идут после него. Это потому, что самовнимание в моделях, таких как трансформеры, по своей конструкции двунаправленно, позволяя каждому токену учитывать контекст, предоставляемый всеми другими токенами в последовательности, независимо от их позиции. Это верно даже во время инференса, когда модель генерирует токены по одному в авторегрессивном режиме.

Таким образом, при предсказании D модель вычисляет самовнимание на [A, B, C], и A действительно будет учитывать B и C, а также сам себя. Это позволяет модели использовать полный контекст последовательности для следующего предсказания.

Человеческий ответ, пожалуйста? Большое спасибо.

Маскирование во время вывода трансформера?

Вопрос или проблема

Ответ или решение