Различие между слоями внимания и полностью связанными слоями в глубоком обучении

Question 1

За последние несколько лет было несколько публикаций по так называемому механизму “Внимания” в глубоком обучении (например, 1 2). Концепция заключается в том, что мы хотим, чтобы нейронная сеть сосредоточилась или обратила больше внимания на определенные признаки, и она продемонстрировала некоторые эмпирические успехи в области обработки естественного языка и связанных последовательных моделей.

Когда я смотрю на некоторые примеры кода, такие как этот пример, добавление слоя Внимания интуитивно кажется разумным и, похоже, улучшает производительность модели LSTM. Однако на вид это очень похоже на обычный полностью связанный слой. В этой ссылке (и с некоторым небольшим изменением нотации) слой Внимания выдает
$$ c(x) = \tanh(\mathbf{W}x + \mathbf{b} ) $$
$$ \beta(x) = \frac{e^{c(x_j)}}{\sum_{j} e^{c(x_j)}} $$
$$ f_{Attention}(x) = x\beta $$
где $W,b$ — это веса/смещения, $x$ — это вход слоя, а $f(.)$ — это выход слоя. В отличие от этого, обычный полностью связанный слой:
$$ f_{Dense} = \sigma(\mathbf{W}x + \mathbf{b}) $$
для некоторой функции активации $\sigma(.)$.

Моя интерпретация реализации Внимания выше заключается в том, что это практически то же самое, что и стандартный полностью связанный слой, но с активацией $\tanh$ (почему?), затем с $\text{softmax}$ (чтобы “веса внимания” $\beta$ суммировались до 1), а затем линейное скалярное произведение.

Как эта архитектура позволяет модели иметь “внимание”? Я не вижу, чем это принципиально отличается или является более выразительным, чем просто добавление стандартного полностью связанного слоя. Неужели я что-то не понимаю?

Исправление/Моя интерпретация

Я внимательно рассмотрел пример кода, и на самом деле есть разница из-за форм параметров.

Для входного $X$ с формой (N,T,K), где $N$ — это образцы, $T$ — это временной интервал, а $K$ — это признаки, формы параметров Внимания следующие: $W$ (K, 1), $b$ (T,1). Это предполагает, что как “контекст” $c$, так и “веса внимания” $\beta$ имеют форму (N,T,1). Таким образом, в конечном скалярном произведении мы используем слой Внимания, чтобы весить каждый временной шаг (например, уделять больше внимания ценам вчера и 5 дней назад, но меньше — 30 дней назад).

В отличие от этого, полностью связанный слой в этом контексте будет генерировать некоторые (нормализованные) веса для каждого столбца признаков равномерно по временным меткам (например, уделять больше внимания всем ценам, но меньше — процентным ставкам).

Question 2

Механизм внимания основан на трансформерах, которые действительно также включают полностью связанные слои.

Разница в основном связана с РНН, которые являются основой механизма внимания. Однако это внимание довольно ограничено.

Может быть сложно понять, как именно это работает, даже если вы понимаете идею шаг за шагом.

Вот почему хороший способ понять, как они работают — использовать песочницы, такие как следующие:

https://distill.pub/2016/augmented-rnns/

https://colab.research.google.com/github/tensorflow/tensor2tensor/blob/master/tensor2tensor/notebooks/hello_t2t.ipynb#scrollTo=OJKU36QAfqOC

Различие между слоями внимания и полностью связанными слоями в глубоком обучении

Вопрос или проблема

Ответ или решение

Полносвязные слои

Механизм внимания

Основное различие

Заключение