Data Science
Понимание алгоритма обучения архитектуры Трансформера
00
Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для
Data Science
Почему нам нужен полносвязный слой после части сложения и нормализации многоголового внимания в кодировщике?
00
Вопрос или проблема Я пытаюсь понять несколько аспектов архитектуры трансформера на основе этого изображения: Предположим, $n$ — это количество токенов, $d_e$ — размерность эмбеддингов, а $d_m$ — размерность модели. Насколько я понимаю, матрицы позиционного
Data Science
В статье “Attention Is All You Need”, почему FFN в (2) аналогичны двум сверткам с размером ядра 1?
00
Вопрос или проблема Кроме того, зачем нам нужен FFN в каждом слое, если у нас уже есть внимание? Вот скриншот соответствующего раздела из Vaswani et al. (2017): Послойный слой прямой связи – это просто умножение матрицы с добавлением вектора смещения
Data Science
Предсказание последовательности точек на изображении
00
Вопрос или проблема Мой обучающий набор состоит из набора изображений (либо с 3 каналами, либо с 1 каналом, конечно, я использую только один тип канала). Метки представляют собой последовательность точек в определенном порядке, которые я хочу предсказать по изображениям.
Data Science
Сеть внимания без скрытого состояния?
00
Вопрос или проблема Мне было интересно, насколько полезно скрытое состояние кодировщика для сети внимания. Когда я изучал структуру модели внимания, я обнаружил, что модель обычно выглядит следующим образом: x: Входные данные.
Data Science
Формы mat1 и mat2 в Pytorch не могут быть умножены (131072×12 и 64×32)
01
Вопрос или проблема У меня есть модель прогнозирования многомерного временного ряда, изначально использующая расширенную временную свертку для извлечения временных зависимостей, которую я пытался заменить на многоголовое самовнимание с остаточным соединением
Data Science
Требуется ли плотный слой для реализации внимания Бахданау?
01
Вопрос или проблема Я заметил, что все добавляют слой Dense( ) в свой пользовательский слой внимания Bahdanau, что, по моему мнению, не требуется. Это изображение из учебника здесь. Здесь мы просто умножаем 2 вектора, а затем выполняем несколько операций
Data Science
Как добавить декодер и слой внимания к двунаправленному кодировщику с помощью tensorflow 2.0
00
Вопрос или проблема Я начинающий в машинном обучении и пытаюсь создать модель для коррекции орфографии, которая проверяет правописание для небольшого количества словарных фраз (примерно 1000 фраз). В настоящее время я обращаюсь к урокам tensorflow 2.
Data Science
Может ли маска внимания иметь значения между 0 и 1?
00
Вопрос или проблема Я новичок в моделях на основе внимания и хотел узнать больше о маске внимания в моделях НЛП. attention_mask: необязательный torch.LongTensor формы [batch_size, sequence_length], с индексами, выбранными из [0, 1].
Data Science
В механизме внимания почему мы не нормализуем после умножения значений?
00
Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается
Data Science
Хорошая производительность во время оценки, но плохая производительность во время вывода.
00
Вопрос или проблема Я новичок. Я попытался предварительно обучить и внедрить JPEG-LM с нуля с использованием Llama-2. Код можно найти здесь. Во время оценки и обучения он возвращает высокую точность, что может указывать на переобучение.
Data Science
Суммирование самовнимания и потеря информации
00
Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.
Data Science
Внимание к нескольким областям одного и того же предложения
00
Вопрос или проблема Рассмотрим некоторые предложения ниже: “Обмен данными — это замечательная платформа, чтобы получить ответы на вопросы, связанные с наукой о данных, и она помогает изучать различные концепции тоже.”
Data Science
Количество двунаправленных LSTM в модели энкодер-декодер равно максимальной длине входного текста/символов?
00
Вопрос или проблема Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/. Мне кажется, что количество LSTM в кодере
Data Science
Тонко настроенная MLM на основе RoBERTa не улучшает производительность.
00
Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2
Data Science
Рабочее поведение BERT по сравнению с Transformers, Self-Attention+LSTM и Attention+LSTM на задаче классификации научных STEM данных?
00
Вопрос или проблема Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle, reaction, mitochondria и newton и т.
Data Science
Различие между слоями внимания и полностью связанными слоями в глубоком обучении
01
Вопрос или проблема За последние несколько лет было несколько публикаций по так называемому механизму “Внимания” в глубоком обучении (например, 1 2). Концепция заключается в том, что мы хотим, чтобы нейронная сеть сосредоточилась или обратила
Data Science
Почему в Keras только три типа слоёв внимания?
00
Вопрос или проблема Библиотека Keras содержит всего 3 типа внимания – слои внимания Keras, а именно: Слой MultiHeadAttention Слой Attention Слой AdditiveAttention Тем не менее, в теории существует множество типов внимания, например (некоторые из
Data Science
Почему декодер генерирует все скрытые состояния во время вывода?
00
Вопрос или проблема Кажется, что в ванильных трансформерах (например, AIAYN) во время инференса скрытые состояния генерируются для всех токенов во входной последовательности, но только последнее используется для предсказания следующего токена.