transformer - ответы на вопросы - Page 3 of 4

Data Science

Ударенный с несколькими временными рядами, нуждаюсь в помощи.

00

Вопрос или проблема Ударил здесь более 4 недель В настоящее время я имею дело с данными о продажах, имеющими несколько временных рядов (сотни), требование состоит в том, чтобы построить одну модель, которая может быть использована для прогнозирования продаж.

Data Science

Как адаптировать трансформеры для классификации временных рядов 2D-изображений с нерегулярной выборкой по нескольким фильтрам?

00

Вопрос или проблема Я работаю над классификацией временных рядов 2D изображений, наблюдаемых в нескольких фильтрах (или каналах), но не одновременно. Например, у меня есть наблюдения в двух фильтрах — g-диапазоне и r-диапазоне — сделанные в разные временные метки, см.

Data Science

Хорошая производительность во время оценки, но плохая производительность во время вывода.

00

Вопрос или проблема Я новичок. Я попытался предварительно обучить и внедрить JPEG-LM с нуля с использованием Llama-2. Код можно найти здесь. Во время оценки и обучения он возвращает высокую точность, что может указывать на переобучение.

Data Science

Адаптация медицинского трансформера для сегментации ран с несколькими классами

00

Вопрос или проблема Я использую Medical Transformer (https://github.com/jeya-maria-jose/Medical-Transformer) для сегментации ран, но хотел бы адаптировать его для сегментации трех различных классов: раны, дополнительный маркер и фон.

Data Science

Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?

00

Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “

Data Science

Смешение временно-зависимых и постоянных признаков для трансформера

00

Вопрос или проблема Я использую архитектуру трансформера для предсказания будущих временных точек на основе предыдущих временных точек. Каждый элемент входной последовательности представляет собой вектор [ температура, время, солнечный свет ] Каждый элемент

Data Science

Понимание настройки параметра альфа в статье LORA

01

Вопрос или проблема Я читал статью о LORA https://arxiv.org/pdf/2106.09685.pdf, и одна вещь, которую я не понимаю, это раздел 4.1, где обновления изменяются с помощью альфа, где альфа – это константа в r. Говорится, что альфа устанавливается на

Data Science

Как K и V извлекаются из выходных данных энкодера в трансформере?

00

Вопрос или проблема Я пытался понять архитектуру трансформера из работы “Всё, что вам нужно — это внимание”. Работа показывает следующую архитектуру трансформера: Как $K$ и $V$ извлекаются из выходных данных кодировщика размерности $512$ (которые

Data Science

Суммирование самовнимания и потеря информации

00

Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.

Data Science

Должен ли я чередовать синус и косинус в синусоидальном позиционном кодировании?

00

Вопрос или проблема Я пытаюсь реализовать синусоидальное позиционное кодирование. Я нашел два решения, которые дают разные кодировки. Мне интересно, является ли одно из них неправильным или оба правильные. Я демонстрирую визуальные изображения полученных

Data Science

Как мне реализовать модель с двойным энкодером в Pytorch?

00

Вопрос или проблема Я пытаюсь реализовать статью под названием “Изучение межязыковых представлений предложений с помощью многозадачной модели двойного кодировщика”. Здесь кодировщик и декодировщик используют одни и те же веса, но я не могу это реализовать в коде.

Data Science

Тонко настроенная MLM на основе RoBERTa не улучшает производительность.

00

Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2

Data Science

Почему трансформерам нужны позиционные кодировки?

00

Вопрос или проблема По крайней мере, в первом слое самовнимания в кодировщике входные данные имеют соответствие с выходными, у меня есть следующие вопросы. Неужели порядок уже неявно захватывается векторами запросов, которые сами по себе являются просто

Data Science

Трансформер спамит самый частый символ.

00

Вопрос или проблема Я заметил, что трансформер, как правило, оптимизируется для генерации наиболее часто встречающегося символа. Например, у меня есть следующие входные токены: ["a", "1", "a", "a", "2", "a", "a", "a", "3"]. И выход должен быть: ["<

Data Science

Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)

00

Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?

Data Science

Должен ли изменяться распределение весов при тонкой настройке классификатора на основе трансформеров?

00

Вопрос или проблема Я использую предобученную модель DistilBERT от Huggingface с пользовательской классификационной головой, которая почти такая же, как в референсной реализации: class PretrainedTransformer(nn.Module): def __init__( self, target_classes): super().

Data Science

Могут ли модели основы временных рядов использоваться для классификации?

00

Вопрос или проблема Можно ли использовать модели фундамента временных рядов, такие как timesFM (https://github.com/google-research/timesfm?tab=readme-ov-file), которые предназначены для прогнозирования временных рядов, для классификации временных рядов?

Data Science

Использование активаций на определенном слое в качестве входных данных для LLM, таких как OPT-350m

00

Вопрос или проблема Я работаю с моделью OPT-350m и стремлюсь использовать вложения из разных слоев в качестве входных данных для генерации. Я столкнулся с проблемами при попытке вернуть эти вложения в модель, используя предоставленные методы.

Data Science

Как подстроить гиперпараметры трансформера для временных рядов, чтобы превзойти производительность LSTM?

00

Вопрос или проблема Я пытаюсь обучить модель машинного обучения на данных временных рядов. Входные данные представляют собой 10 временных рядов, которые по сути являются данными с датчиков. Выходные данные – это другой набор из трех временных рядов.

Data Science

Библиотека для абстрактивного суммаризирования

00

Вопрос или проблема Существует ли библиотека Python, поддерживающая абстрактивное суммирование? (Исключая облачные модели, такие как GPT или ChatGPT). Мы можем легко выполнить экстрактивное суммирование, используя код ниже: !pip3 install transformers==4.11.3 !