Data Science
Детали нормализации по слоям в GPT-2
02
Вопрос или проблема Я прочитал, что GPT-2 и другие трансформеры используют нормализацию по слоям перед блоками самовнимания и полносвязными слоями, но я все еще не уверен, как именно работает нормализация. Предположим, что наш размер контекста составляет
Data Science
МЛ. Как заставить нейронную сеть запоминать контекст и данные?
02
Вопрос или проблема Я хочу, чтобы нейронная сеть могла запоминать, но перцептрон может запоминать что-то только во время обучения. Я хочу, чтобы нейронная сеть адаптировалась к новым условиям без повторного обучения, например, если я сказал, что меня
Data Science
Как учитывается маскирование отступов в головах внимания трансформера?
00
Вопрос или проблема В чисто образовательных целях моя цель – реализовать базовую архитектуру Transformer с нуля. До сих пор я сосредоточился на энкодере для классификационных задач и предположил, что все образцы в пакете имеют одинаковую длину.
Data Science
Токенизация составных и сложносочинённых предложений
00
Вопрос или проблема Я пытаюсь разбить на токены предложения документа для анализа аспектов на основе тональности. Есть некоторые предложения, которые состоят из более чем одной темы. Вот несколько примеров: “Сенсорный экран хороший, но аккумулятор слабый”
Data Science
Как написать генератор для дообучения моделей на основе трансформеров (Tensorflow)
00
Вопрос или проблема Я пытался написать генератор для модели DistillBertFast ## Генератор def _generator(text=train_texts, label=Y_oh_train, batch_size=1): # label = tf.ragged.constant(label) while True: for i in range(0,len(text),batch_size): yield dict(tokenizer(text[i:i+batch_size]
Data Science
Как заставить модель переобучиться
00
Вопрос или проблема Недавно я изучал модель Transformer, используя реализацию на Pytorch, но моя модель не сходилась. Я задумался, была ли проблема в моем коде или в чем-то еще. Поэтому я подумал, что если я “упрощу”
Data Science
О последнем декодирующем уровне в архитектуре трансформера
00
Вопрос или проблема Итак, в слое декодера трансформера, предположим, я предсказал 3 слова до сих пор, включая начальный токен, тогда последний слой декодера будет производить 3 вектора размера d-model, и только последний вектор пройдет через слой встраивания
Data Science
Почему трансформация моих признаков может улучшить производительность простой решающей дерева?
00
Вопрос или проблема Признаки и целевая переменная в моем наборе данных сильно искажены. Мог ли кто-то объяснить, почему преобразование признаков и целевой переменной (я использую преобразование Йео-Джонсона) значительно улучшает производительность моей
Data Science
Можно ли использовать трансформерные модели для обучения чат-ботов?
00
Вопрос или проблема Могут ли модели-трансформеры использоваться для обучения чат-ботов? Примечание – Я говорю о модели трансформера, которую Google выпустил в статье “Внимание — это всё, что вам нужно” Трансформер — это просто нейронная сеть.
Data Science
Что может вызвать значительно различающееся время вывода предобученных моделей Opus-MT при использовании с библиотекой transformers?
00
Вопрос или проблема Я тестировал предобученные модели Opus-MT, перенесенные в библиотеку transformers для реализации на Python. В частности, я использую opus-mt-en-fr для перевода с английского на французский. Токенизатор и модель перевода загружаются
Data Science
Убыток не уменьшается.
00
Вопрос или проблема Я строю проект на основе генерации текста с использованием архитектуры трансформера. Я использовал токенизатор Huggingface для токенизации, мой набор данных – daily-dialog, а архитектура моей модели следующая: class languageModel(nn.
Data Science
В механизме внимания почему мы не нормализуем после умножения значений?
00
Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается
Data Science
Неясно относительно смещения относительной позиции.
00
Вопрос или проблема Я читал статью о Swin Transformer и наткнулся на концепцию относительного позиционного смещения. Я не могу понять, почему это более эффективно, чем позиционные эмбеддинги. Надеюсь, кто-то сможет объяснить это интуитивно. Заранее спасибо!
Data Science
Использование KerasClassifier для обучения нейронной сети
00
Вопрос или проблема Я создал простую нейронную сеть для бинарной классификации текста (спам/неспам) с использованием предобученного трансформера BERT. Текущая реализация на чистом Keras работает нормально. Однако я хотел построить график некоторых метрик
Data Science
Прогнозы нейронной регрессии вокруг среднего значения цели
00
Вопрос или проблема У меня есть регрессионная модель с трансформером и некоторые данные о последних транзакциях пользователей (категориальные и числовые). Моя целевая переменная имеет экспоненциальное распределение со средним около 10e4 и также имеет
Data Science
Ударенный с несколькими временными рядами, нуждаюсь в помощи.
00
Вопрос или проблема Ударил здесь более 4 недель В настоящее время я имею дело с данными о продажах, имеющими несколько временных рядов (сотни), требование состоит в том, чтобы построить одну модель, которая может быть использована для прогнозирования продаж.
Data Science
Как адаптировать трансформеры для классификации временных рядов 2D-изображений с нерегулярной выборкой по нескольким фильтрам?
00
Вопрос или проблема Я работаю над классификацией временных рядов 2D изображений, наблюдаемых в нескольких фильтрах (или каналах), но не одновременно. Например, у меня есть наблюдения в двух фильтрах — g-диапазоне и r-диапазоне — сделанные в разные временные метки, см.
Data Science
Хорошая производительность во время оценки, но плохая производительность во время вывода.
00
Вопрос или проблема Я новичок. Я попытался предварительно обучить и внедрить JPEG-LM с нуля с использованием Llama-2. Код можно найти здесь. Во время оценки и обучения он возвращает высокую точность, что может указывать на переобучение.
Data Science
Адаптация медицинского трансформера для сегментации ран с несколькими классами
00
Вопрос или проблема Я использую Medical Transformer (https://github.com/jeya-maria-jose/Medical-Transformer) для сегментации ран, но хотел бы адаптировать его для сегментации трех различных классов: раны, дополнительный маркер и фон.
Data Science
Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?
00
Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “