transformer
Data Science
Вопрос или проблема Я разрабатываю нейронную сеть на основе трансформеров для бинарной классификации. Оба класса сбалансированы (по 750k наблюдений для каждого). Во время обучения значение потерь и метрик становится NaN после нескольких батчей (примерно через 50 батчей).
Data Science
Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для
Data Science
Вопрос или проблема Я пытаюсь понять несколько аспектов архитектуры трансформера на основе этого изображения: Предположим, $n$ — это количество токенов, $d_e$ — размерность эмбеддингов, а $d_m$ — размерность модели. Насколько я понимаю, матрицы позиционного
Data Science
Вопрос или проблема Насколько я понимаю, все токены передаются в трансформер одновременно, и позиционные кодировки помогают ему понять их порядок в последовательности. А косинусовое кодирование помогает захватить краткосрочные и долгосрочные зависимости
Data Science
Вопрос или проблема Я хотел бы донастроить предварительно обученную модель типа BERT для задачи анализа семантического сходства в манере задачи SNLI/MNLI (т.е. классифицировать пары предложений на «заключение» или «противоречие»).
Data Science
Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая
Data Science
Вопрос или проблема Кроме того, зачем нам нужен FFN в каждом слое, если у нас уже есть внимание? Вот скриншот соответствующего раздела из Vaswani et al. (2017): Послойный слой прямой связи – это просто умножение матрицы с добавлением вектора смещения
Data Science
Вопрос или проблема Рассмотрите модель, которая включает модуль Tokens-to-Token (T2T) (как предложено в [https://arxiv.org/abs/2101.11986]), за которым следует слой трансформера. Предположим, что входные данные для модели имеют размеры 𝐻×𝑊×𝐶.
Data Science
Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT
Data Science
Вопрос или проблема Я обучил свою модель впервые и провел инференс на случайных изображениях. Когда я попробовал случайное изображение, которое имеет аналогичную позицию камеры с моим набором данных, она хорошо справляется с обнаружением реки.
Data Science
Вопрос или проблема Я пытаюсь предсказать коды беременности с помощью базовой архитектуры трансформатора. Эти коды беременности выглядят следующим образом: prg001, prg002 до prg030. Prg001 будет означать пренатальный скрининг, а prg030 будет означать исход родов для матери.
Data Science
Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “
Data Science
Вопрос или проблема Я хотел бы интерпретировать результат позиционного кодирования с учётом значений, которые я вижу, чтобы лучше понять концепцию. В простом случае, где есть два слова, w0 и w1, и размерность вектора 4, результат матрицы позиционного
Data Science
Вопрос или проблема Я прочитал несколько страниц, например, эту, о том, что такое позиционное кодирование и почему его оригинальные авторы пришли к идее использования синусоидальных функций. Тем не менее, у меня все еще есть некоторые вопросы о философии
Data Science
Вопрос или проблема Теперь я изучаю разделение музыкальных источников с использованием htdemucs. Как вы знаете, в htdemucs мы используем слой кодировщика трансформера кросс-доменной связи вместо общего слоя кодировщика/декодировщика, который использует
Data Science
Вопрос или проблема У меня есть набор данных, который содержит временные метки и количество пользователей на этой временной метке. У каждого пользователя есть значения ресурсов, которые изменяются с каждым временным штампом. Как я могу предсказать количество
Data Science
Как мне вводить и выводить временные ряды признаков и целевых величин в трансформер временных рядов?
Вопрос или проблема Я испытываю трансформер временных рядов PatchTST (статья, код) на имеющихся у меня данных временных рядов. Способ обработки данных в PatchTST следующий: Обратите внимание, что на строке 78-79 репозиторий делает следующее: self.
Data Science
Вопрос или проблема Я задумываюсь, как подойти к проекту, где я хотел бы увеличить количество выходных классов уже обученной сети. У меня есть очень веские основания полагать, что модель уже усвоила соответствующую информацию, чтобы предсказать этот новый
Data Science
Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому
Data Science
Вопрос или проблема Как выбрать архитектуру нейронной сети? Примеры: «Что если мне нужно переводить слова?» «Генерировать текст, изображения?» «Играть в обычную игру?» «Играть в игру, которая меняется в зависимости от действий игрока, то есть нейронная