Как работает алгоритм обратного распространения ошибки в трансформере?

Question 1

Конкретно для решения проблемы генерации текста, а не перевода. Буквально нет ни одного обсуждения, блога или руководства, которое объясняет математику за этим. Мое лучшее предположение на данный момент:

взять пример входного запроса “hello how are you?” и целевой ответ “i am doing well”
добавить любое необходимое заполнение и специальные токены, затем преобразовать как входные данные, так и цель в позиционно закодированные векторные представления слов
пропустить получившиеся матрицы через собственные блоки внимания, используя случайно инициализированные матрицы проекции запросов, ключей и значений как для кодировщика, так и для декодера в отдельных блоках внимания
найти матрицу значений ошибки между двумя новыми матрицами, которые были созданы блоками внимания
корректировать матрицы проекции запросов, ключей и значений кодировщика на основе значения ошибки (я не знаю, как это будет работать, учитывая, что матрица значений ошибки и матрицы проекции обычно не будут иметь одинаковые размеры)
продолжать делать это для >5000 пар запрос/ответ, чтобы в конечном итоге получить трансформер, который правильно отвечает на запросы (для ваших целей)

Влияет ли механизм обратного распространения на какие-либо другие матрицы, кроме матриц проекции? Как это будет работать с несколькими головами внимания?

Question 2

Я думаю, у вас есть некоторое непонимание относительно того, каковы реальные выходные данные модели и ошибка. Когда вы говорите найти матрицу значений ошибки между двумя новыми матрицами, которые были созданы блоками внимания, — нет значения ошибки между выходными данными внимания. Ошибка вычисляется на основе выходных данных модели, которые представляют собой распределение вероятностей для следующего токена.

Для классической автогрессивной языковой модели в качестве тренировочной цели используется предсказание следующего токена. Если вам дана входная последовательность “hello how are you?\nI am doing well”, вы предсказываете выходной токен за токеном:

"hello" -> "how"
"hello how" -> "are"
"hello how are" -> "you"
"hello how are you" -> "?"
"hello how are you?" -> "\n"
"hello how are you?\n" -> "I"
"hello how are you?\nI" -> "am"
"hello how are you?\nI am" -> "doing"
"hello how are you?\nI am doing" -> "well"
# и так далее

Это делается параллельно для всей последовательности. Каждая входная последовательность используется для предсказания распределения вероятностей по словарю модели. Ошибка модели — это кросс-энтропийная ошибка между предсказанным распределением и истинным токеном.

Обратное распространение работает так же, как в любой нейронной сети. Градиент ошибки автоматически распространяется обратно ко всем параметрам модели (проекции, векторным представлениям, полносвязным слоям, нормализациям и т.д.).

Ключевая идея обратного распространения заключается в том, что алгоритм для вычисления градиентов работает так же для любого произвольного набора композиций функций (пока все они дифференцируемы).

Имея y = f(g(x)), у вас есть dy/dx = f'(g(x)) * g'(x), где f' и g' — производные f и g.

Неважно, что представляют собой функции f и g, алгоритм обратного распространения работает одинаково. Функциями могут быть матричные умножения, свертки, внимание, многоголовое внимание и т.д. Все это работает одинаково.

Как работает алгоритм обратного распространения ошибки в трансформере?

Вопрос или проблема

Ответ или решение