transformer
Data Science
Вопрос или проблема Я использую архитектуру трансформера для предсказания будущих временных точек на основе предыдущих временных точек. Каждый элемент входной последовательности представляет собой вектор [ температура, время, солнечный свет ] Каждый элемент
Data Science
Вопрос или проблема Я читал статью о LORA https://arxiv.org/pdf/2106.09685.pdf, и одна вещь, которую я не понимаю, это раздел 4.1, где обновления изменяются с помощью альфа, где альфа – это константа в r. Говорится, что альфа устанавливается на
Data Science
Вопрос или проблема Я пытался понять архитектуру трансформера из работы “Всё, что вам нужно — это внимание”. Работа показывает следующую архитектуру трансформера: Как $K$ и $V$ извлекаются из выходных данных кодировщика размерности $512$ (которые
Data Science
Вопрос или проблема В самовнимании внимание для слова вычисляется следующим образом: $$ A(q, K, V) = \sum_{i} \frac{exp(q.k^{<i>})}{\sum_{j} exp(q.k^{<j>})}v^{<i>} $$ Мой вопрос: почему мы суммируем векторы множественночности * Значение.
Data Science
Вопрос или проблема Я пытаюсь реализовать синусоидальное позиционное кодирование. Я нашел два решения, которые дают разные кодировки. Мне интересно, является ли одно из них неправильным или оба правильные. Я демонстрирую визуальные изображения полученных
Data Science
Вопрос или проблема Я пытаюсь реализовать статью под названием “Изучение межязыковых представлений предложений с помощью многозадачной модели двойного кодировщика”. Здесь кодировщик и декодировщик используют одни и те же веса, но я не могу это реализовать в коде.
Data Science
Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2
Data Science
Вопрос или проблема По крайней мере, в первом слое самовнимания в кодировщике входные данные имеют соответствие с выходными, у меня есть следующие вопросы. Неужели порядок уже неявно захватывается векторами запросов, которые сами по себе являются просто
Data Science
Вопрос или проблема Я заметил, что трансформер, как правило, оптимизируется для генерации наиболее часто встречающегося символа. Например, у меня есть следующие входные токены: ["a", "1", "a", "a", "2", "a", "a", "a", "3"]. И выход должен быть: ["<
Data Science
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
Вопрос или проблема Я использую предобученную модель DistilBERT от Huggingface с пользовательской классификационной головой, которая почти такая же, как в референсной реализации: class PretrainedTransformer(nn.Module): def __init__( self, target_classes): super().
Data Science
Вопрос или проблема Можно ли использовать модели фундамента временных рядов, такие как timesFM (https://github.com/google-research/timesfm?tab=readme-ov-file), которые предназначены для прогнозирования временных рядов, для классификации временных рядов?
Data Science
Вопрос или проблема Я работаю с моделью OPT-350m и стремлюсь использовать вложения из разных слоев в качестве входных данных для генерации. Я столкнулся с проблемами при попытке вернуть эти вложения в модель, используя предоставленные методы.
Data Science
Вопрос или проблема Я пытаюсь обучить модель машинного обучения на данных временных рядов. Входные данные представляют собой 10 временных рядов, которые по сути являются данными с датчиков. Выходные данные – это другой набор из трех временных рядов.
Data Science
Вопрос или проблема Существует ли библиотека Python, поддерживающая абстрактивное суммирование? (Исключая облачные модели, такие как GPT или ChatGPT). Мы можем легко выполнить экстрактивное суммирование, используя код ниже: !pip3 install transformers==4.11.3 !
Data Science
Вопрос или проблема Я работаю с библиотекой SentenceTransformers с одной из их моделей встраивания. Производительность хорошая, но я хотел бы пожертвовать частью точности ради повышения производительности. Я пробовал квантизировать модель, с которой работаю
Data Science
Вопрос или проблема Кажется, что в ванильных трансформерах (например, AIAYN) во время инференса скрытые состояния генерируются для всех токенов во входной последовательности, но только последнее используется для предсказания следующего токена.
Data Science
Вопрос или проблема В задаче нейронного машинного перевода (NMT) мои входные данные содержат реляционную информацию. Эти отношения можно смоделировать с помощью графовой структуры. Один из подходов может заключаться в использовании графовой нейронной