Data Science
Должен ли я чередовать синус и косинус в синусоидальном позиционном кодировании?
00
Вопрос или проблема Я пытаюсь реализовать синусоидальное позиционное кодирование. Я нашел два решения, которые дают разные кодировки. Мне интересно, является ли одно из них неправильным или оба правильные. Я демонстрирую визуальные изображения полученных
Data Science
Как мне реализовать модель с двойным энкодером в Pytorch?
00
Вопрос или проблема Я пытаюсь реализовать статью под названием “Изучение межязыковых представлений предложений с помощью многозадачной модели двойного кодировщика”. Здесь кодировщик и декодировщик используют одни и те же веса, но я не могу это реализовать в коде.
Data Science
Тонко настроенная MLM на основе RoBERTa не улучшает производительность.
00
Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2
Data Science
Почему трансформерам нужны позиционные кодировки?
00
Вопрос или проблема По крайней мере, в первом слое самовнимания в кодировщике входные данные имеют соответствие с выходными, у меня есть следующие вопросы. Неужели порядок уже неявно захватывается векторами запросов, которые сами по себе являются просто
Data Science
Трансформер спамит самый частый символ.
00
Вопрос или проблема Я заметил, что трансформер, как правило, оптимизируется для генерации наиболее часто встречающегося символа. Например, у меня есть следующие входные токены: ["a", "1", "a", "a", "2", "a", "a", "a", "3"]. И выход должен быть: ["<
Data Science
Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)
00
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
Должен ли изменяться распределение весов при тонкой настройке классификатора на основе трансформеров?
00
Вопрос или проблема Я использую предобученную модель DistilBERT от Huggingface с пользовательской классификационной головой, которая почти такая же, как в референсной реализации: class PretrainedTransformer(nn.Module): def __init__( self, target_classes): super().
Data Science
Могут ли модели основы временных рядов использоваться для классификации?
00
Вопрос или проблема Можно ли использовать модели фундамента временных рядов, такие как timesFM (https://github.com/google-research/timesfm?tab=readme-ov-file), которые предназначены для прогнозирования временных рядов, для классификации временных рядов?
Data Science
Использование активаций на определенном слое в качестве входных данных для LLM, таких как OPT-350m
00
Вопрос или проблема Я работаю с моделью OPT-350m и стремлюсь использовать вложения из разных слоев в качестве входных данных для генерации. Я столкнулся с проблемами при попытке вернуть эти вложения в модель, используя предоставленные методы.
Data Science
Как подстроить гиперпараметры трансформера для временных рядов, чтобы превзойти производительность LSTM?
00
Вопрос или проблема Я пытаюсь обучить модель машинного обучения на данных временных рядов. Входные данные представляют собой 10 временных рядов, которые по сути являются данными с датчиков. Выходные данные – это другой набор из трех временных рядов.
Data Science
Библиотека для абстрактивного суммаризирования
00
Вопрос или проблема Существует ли библиотека Python, поддерживающая абстрактивное суммирование? (Исключая облачные модели, такие как GPT или ChatGPT). Мы можем легко выполнить экстрактивное суммирование, используя код ниже: !pip3 install transformers==4.11.3 !
Data Science
Как квантование может замедлить модель?
00
Вопрос или проблема Я работаю с библиотекой SentenceTransformers с одной из их моделей встраивания. Производительность хорошая, но я хотел бы пожертвовать частью точности ради повышения производительности. Я пробовал квантизировать модель, с которой работаю
Data Science
Почему декодер генерирует все скрытые состояния во время вывода?
00
Вопрос или проблема Кажется, что в ванильных трансформерах (например, AIAYN) во время инференса скрытые состояния генерируются для всех токенов во входной последовательности, но только последнее используется для предсказания следующего токена.
Data Science
Включение структурной информации в трансформер?
03
Вопрос или проблема В задаче нейронного машинного перевода (NMT) мои входные данные содержат реляционную информацию. Эти отношения можно смоделировать с помощью графовой структуры. Один из подходов может заключаться в использовании графовой нейронной