transformer - ответы на вопросы - Page 2 of 4

Data Science

Прогнозировать значения переменных характеристик по временным меткам.

00

Вопрос или проблема У меня есть набор данных, который содержит временные метки и количество пользователей на этой временной метке. У каждого пользователя есть значения ресурсов, которые изменяются с каждым временным штампом. Как я могу предсказать количество

Data Science

Как мне вводить и выводить временные ряды признаков и целевых величин в трансформер временных рядов?

00

Вопрос или проблема Я испытываю трансформер временных рядов PatchTST (статья, код) на имеющихся у меня данных временных рядов. Способ обработки данных в PatchTST следующий: Обратите внимание, что на строке 78-79 репозиторий делает следующее: self.

Data Science

Могу ли я добавить новый выходной класс в декодер и обучить только последний слой?

00

Вопрос или проблема Я задумываюсь, как подойти к проекту, где я хотел бы увеличить количество выходных классов уже обученной сети. У меня есть очень веские основания полагать, что модель уже усвоила соответствующую информацию, чтобы предсказать этот новый

Data Science

Как можно использовать TransformerXL для классификации текста?

02

Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому

Data Science

Как выбрать архитектуру нейронной сети?

00

Вопрос или проблема Как выбрать архитектуру нейронной сети? Примеры: «Что если мне нужно переводить слова?» «Генерировать текст, изображения?» «Играть в обычную игру?» «Играть в игру, которая меняется в зависимости от действий игрока, то есть нейронная

Data Science

Детали нормализации по слоям в GPT-2

02

Вопрос или проблема Я прочитал, что GPT-2 и другие трансформеры используют нормализацию по слоям перед блоками самовнимания и полносвязными слоями, но я все еще не уверен, как именно работает нормализация. Предположим, что наш размер контекста составляет

Data Science

МЛ. Как заставить нейронную сеть запоминать контекст и данные?

02

Вопрос или проблема Я хочу, чтобы нейронная сеть могла запоминать, но перцептрон может запоминать что-то только во время обучения. Я хочу, чтобы нейронная сеть адаптировалась к новым условиям без повторного обучения, например, если я сказал, что меня

Data Science

Как учитывается маскирование отступов в головах внимания трансформера?

00

Вопрос или проблема В чисто образовательных целях моя цель – реализовать базовую архитектуру Transformer с нуля. До сих пор я сосредоточился на энкодере для классификационных задач и предположил, что все образцы в пакете имеют одинаковую длину.

Data Science

Токенизация составных и сложносочинённых предложений

00

Вопрос или проблема Я пытаюсь разбить на токены предложения документа для анализа аспектов на основе тональности. Есть некоторые предложения, которые состоят из более чем одной темы. Вот несколько примеров: “Сенсорный экран хороший, но аккумулятор слабый”

Data Science

Как написать генератор для дообучения моделей на основе трансформеров (Tensorflow)

01

Вопрос или проблема Я пытался написать генератор для модели DistillBertFast ## Генератор def _generator(text=train_texts, label=Y_oh_train, batch_size=1): # label = tf.ragged.constant(label) while True: for i in range(0,len(text),batch_size): yield dict(tokenizer(text[i:i+batch_size]

Data Science

Как заставить модель переобучиться

00

Вопрос или проблема Недавно я изучал модель Transformer, используя реализацию на Pytorch, но моя модель не сходилась. Я задумался, была ли проблема в моем коде или в чем-то еще. Поэтому я подумал, что если я “упрощу”

Data Science

О последнем декодирующем уровне в архитектуре трансформера

00

Вопрос или проблема Итак, в слое декодера трансформера, предположим, я предсказал 3 слова до сих пор, включая начальный токен, тогда последний слой декодера будет производить 3 вектора размера d-model, и только последний вектор пройдет через слой встраивания

Data Science

Почему трансформация моих признаков может улучшить производительность простой решающей дерева?

00

Вопрос или проблема Признаки и целевая переменная в моем наборе данных сильно искажены. Мог ли кто-то объяснить, почему преобразование признаков и целевой переменной (я использую преобразование Йео-Джонсона) значительно улучшает производительность моей

Data Science

Можно ли использовать трансформерные модели для обучения чат-ботов?

00

Вопрос или проблема Могут ли модели-трансформеры использоваться для обучения чат-ботов? Примечание – Я говорю о модели трансформера, которую Google выпустил в статье “Внимание — это всё, что вам нужно” Трансформер — это просто нейронная сеть.

Data Science

Что может вызвать значительно различающееся время вывода предобученных моделей Opus-MT при использовании с библиотекой transformers?

00

Вопрос или проблема Я тестировал предобученные модели Opus-MT, перенесенные в библиотеку transformers для реализации на Python. В частности, я использую opus-mt-en-fr для перевода с английского на французский. Токенизатор и модель перевода загружаются

Data Science

Убыток не уменьшается.

00

Вопрос или проблема Я строю проект на основе генерации текста с использованием архитектуры трансформера. Я использовал токенизатор Huggingface для токенизации, мой набор данных – daily-dialog, а архитектура моей модели следующая: class languageModel(nn.

Data Science

В механизме внимания почему мы не нормализуем после умножения значений?

00

Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается

Data Science

Неясно относительно смещения относительной позиции.

00

Вопрос или проблема Я читал статью о Swin Transformer и наткнулся на концепцию относительного позиционного смещения. Я не могу понять, почему это более эффективно, чем позиционные эмбеддинги. Надеюсь, кто-то сможет объяснить это интуитивно. Заранее спасибо!

Data Science

Использование KerasClassifier для обучения нейронной сети

00

Вопрос или проблема Я создал простую нейронную сеть для бинарной классификации текста (спам/неспам) с использованием предобученного трансформера BERT. Текущая реализация на чистом Keras работает нормально. Однако я хотел построить график некоторых метрик

Data Science

Прогнозы нейронной регрессии вокруг среднего значения цели

00

Вопрос или проблема У меня есть регрессионная модель с трансформером и некоторые данные о последних транзакциях пользователей (категориальные и числовые). Моя целевая переменная имеет экспоненциальное распределение со средним около 10e4 и также имеет