Data Science
Суммирование самовнимания и потеря информации
00
Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.
Data Science
Потеря энтропии при слиянии двух категорий
00
Вопрос или проблема Предположим, я считаю количество случайных событий в последовательности. Для классического примера скажем, что я считаю, сколько различных моделей автомобилей проезжают по шоссе. После некоторых подсчетов я вижу, что моделей тысячами.