Data Science
Требуется ли плотный слой для реализации внимания Бахданау?
00
Вопрос или проблема Я заметил, что все добавляют слой Dense( ) в свой пользовательский слой внимания Bahdanau, что, по моему мнению, не требуется. Это изображение из учебника здесь. Здесь мы просто умножаем 2 вектора, а затем выполняем несколько операций
Data Science
Как добавить декодер и слой внимания к двунаправленному кодировщику с помощью tensorflow 2.0
00
Вопрос или проблема Я начинающий в машинном обучении и пытаюсь создать модель для коррекции орфографии, которая проверяет правописание для небольшого количества словарных фраз (примерно 1000 фраз). В настоящее время я обращаюсь к урокам tensorflow 2.
Data Science
Может ли маска внимания иметь значения между 0 и 1?
00
Вопрос или проблема Я новичок в моделях на основе внимания и хотел узнать больше о маске внимания в моделях НЛП. attention_mask: необязательный torch.LongTensor формы [batch_size, sequence_length], с индексами, выбранными из [0, 1].
Data Science
В механизме внимания почему мы не нормализуем после умножения значений?
00
Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается
Data Science
Хорошая производительность во время оценки, но плохая производительность во время вывода.
00
Вопрос или проблема Я новичок. Я попытался предварительно обучить и внедрить JPEG-LM с нуля с использованием Llama-2. Код можно найти здесь. Во время оценки и обучения он возвращает высокую точность, что может указывать на переобучение.
Data Science
Суммирование самовнимания и потеря информации
00
Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.
Data Science
Внимание к нескольким областям одного и того же предложения
00
Вопрос или проблема Рассмотрим некоторые предложения ниже: “Обмен данными — это замечательная платформа, чтобы получить ответы на вопросы, связанные с наукой о данных, и она помогает изучать различные концепции тоже.”
Data Science
Количество двунаправленных LSTM в модели энкодер-декодер равно максимальной длине входного текста/символов?
00
Вопрос или проблема Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/. Мне кажется, что количество LSTM в кодере
Data Science
Тонко настроенная MLM на основе RoBERTa не улучшает производительность.
00
Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2
Data Science
Рабочее поведение BERT по сравнению с Transformers, Self-Attention+LSTM и Attention+LSTM на задаче классификации научных STEM данных?
00
Вопрос или проблема Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle, reaction, mitochondria и newton и т.
Data Science
Различие между слоями внимания и полностью связанными слоями в глубоком обучении
00
Вопрос или проблема За последние несколько лет было несколько публикаций по так называемому механизму “Внимания” в глубоком обучении (например, 1 2). Концепция заключается в том, что мы хотим, чтобы нейронная сеть сосредоточилась или обратила
Data Science
Почему в Keras только три типа слоёв внимания?
00
Вопрос или проблема Библиотека Keras содержит всего 3 типа внимания – слои внимания Keras, а именно: Слой MultiHeadAttention Слой Attention Слой AdditiveAttention Тем не менее, в теории существует множество типов внимания, например (некоторые из
Data Science
Почему декодер генерирует все скрытые состояния во время вывода?
00
Вопрос или проблема Кажется, что в ванильных трансформерах (например, AIAYN) во время инференса скрытые состояния генерируются для всех токенов во входной последовательности, но только последнее используется для предсказания следующего токена.