information-theory
Data Science
Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.
Data Science
Вопрос или проблема Предположим, я считаю количество случайных событий в последовательности. Для классического примера скажем, что я считаю, сколько различных моделей автомобилей проезжают по шоссе. После некоторых подсчетов я вижу, что моделей тысячами.