attention-mechanism - ответы на вопросы

Data Science

Как работает алгоритм обратного распространения ошибки в трансформере?

00

Вопрос или проблема Конкретно для решения проблемы генерации текста, а не перевода. Буквально нет ни одного обсуждения, блога или руководства, которое объясняет математику за этим. Мое лучшее предположение на данный момент: взять пример входного запроса “

Data Science

Какую модель лучше всего использовать для почасового потребления энергии?

00

Вопрос или проблема У меня есть набор данных с почасовым потреблением энергии в здании с 2010 по 2015 год. С обычной нейронной сетью я достигаю ~94% точности. Пока не пробовал с другими типами моделей. Стоит ли попробовать CNN?

Data Science

Понимание алгоритма обучения архитектуры Трансформера

00

Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для

Data Science

Почему нам нужен полносвязный слой после части сложения и нормализации многоголового внимания в кодировщике?

00

Вопрос или проблема Я пытаюсь понять несколько аспектов архитектуры трансформера на основе этого изображения: Предположим, $n$ — это количество токенов, $d_e$ — размерность эмбеддингов, а $d_m$ — размерность модели. Насколько я понимаю, матрицы позиционного

Data Science

В статье “Attention Is All You Need”, почему FFN в (2) аналогичны двум сверткам с размером ядра 1?

00

Вопрос или проблема Кроме того, зачем нам нужен FFN в каждом слое, если у нас уже есть внимание? Вот скриншот соответствующего раздела из Vaswani et al. (2017): Послойный слой прямой связи – это просто умножение матрицы с добавлением вектора смещения

Data Science

Предсказание последовательности точек на изображении

00

Вопрос или проблема Мой обучающий набор состоит из набора изображений (либо с 3 каналами, либо с 1 каналом, конечно, я использую только один тип канала). Метки представляют собой последовательность точек в определенном порядке, которые я хочу предсказать по изображениям.

Data Science

Сеть внимания без скрытого состояния?

00

Вопрос или проблема Мне было интересно, насколько полезно скрытое состояние кодировщика для сети внимания. Когда я изучал структуру модели внимания, я обнаружил, что модель обычно выглядит следующим образом: x: Входные данные.

Data Science

Формы mat1 и mat2 в Pytorch не могут быть умножены (131072×12 и 64×32)

01

Вопрос или проблема У меня есть модель прогнозирования многомерного временного ряда, изначально использующая расширенную временную свертку для извлечения временных зависимостей, которую я пытался заменить на многоголовое самовнимание с остаточным соединением

Data Science

Требуется ли плотный слой для реализации внимания Бахданау?

01

Вопрос или проблема Я заметил, что все добавляют слой Dense( ) в свой пользовательский слой внимания Bahdanau, что, по моему мнению, не требуется. Это изображение из учебника здесь. Здесь мы просто умножаем 2 вектора, а затем выполняем несколько операций

Data Science

Как добавить декодер и слой внимания к двунаправленному кодировщику с помощью tensorflow 2.0

00

Вопрос или проблема Я начинающий в машинном обучении и пытаюсь создать модель для коррекции орфографии, которая проверяет правописание для небольшого количества словарных фраз (примерно 1000 фраз). В настоящее время я обращаюсь к урокам tensorflow 2.

Data Science

Может ли маска внимания иметь значения между 0 и 1?

00

Вопрос или проблема Я новичок в моделях на основе внимания и хотел узнать больше о маске внимания в моделях НЛП. attention_mask: необязательный torch.LongTensor формы [batch_size, sequence_length], с индексами, выбранными из [0, 1].

Data Science

В механизме внимания почему мы не нормализуем после умножения значений?

00

Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается

Data Science

Хорошая производительность во время оценки, но плохая производительность во время вывода.

00

Вопрос или проблема Я новичок. Я попытался предварительно обучить и внедрить JPEG-LM с нуля с использованием Llama-2. Код можно найти здесь. Во время оценки и обучения он возвращает высокую точность, что может указывать на переобучение.

Data Science

Суммирование самовнимания и потеря информации

00

Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.

Data Science

Внимание к нескольким областям одного и того же предложения

00

Вопрос или проблема Рассмотрим некоторые предложения ниже: “Обмен данными — это замечательная платформа, чтобы получить ответы на вопросы, связанные с наукой о данных, и она помогает изучать различные концепции тоже.”

Data Science

Количество двунаправленных LSTM в модели энкодер-декодер равно максимальной длине входного текста/символов?

00

Вопрос или проблема Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/. Мне кажется, что количество LSTM в кодере

Data Science

Тонко настроенная MLM на основе RoBERTa не улучшает производительность.

00

Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2

Data Science

Рабочее поведение BERT по сравнению с Transformers, Self-Attention+LSTM и Attention+LSTM на задаче классификации научных STEM данных?

00

Вопрос или проблема Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle, reaction, mitochondria и newton и т.

Data Science

Различие между слоями внимания и полностью связанными слоями в глубоком обучении

01

Вопрос или проблема За последние несколько лет было несколько публикаций по так называемому механизму “Внимания” в глубоком обучении (например, 1 2). Концепция заключается в том, что мы хотим, чтобы нейронная сеть сосредоточилась или обратила

Data Science

Почему в Keras только три типа слоёв внимания?

00

Вопрос или проблема Библиотека Keras содержит всего 3 типа внимания – слои внимания Keras, а именно: Слой MultiHeadAttention Слой Attention Слой AdditiveAttention Тем не менее, в теории существует множество типов внимания, например (некоторые из