Data Science
Трансформерная сеть классификации предсказывает один и тот же класс.
00
Вопрос или проблема Я разрабатываю нейронную сеть на основе трансформеров для бинарной классификации. Оба класса сбалансированы (по 750k наблюдений для каждого). Во время обучения значение потерь и метрик становится NaN после нескольких батчей (примерно через 50 батчей).
Data Science
Понимание алгоритма обучения архитектуры Трансформера
00
Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для
Data Science
Почему нам нужен полносвязный слой после части сложения и нормализации многоголового внимания в кодировщике?
00
Вопрос или проблема Я пытаюсь понять несколько аспектов архитектуры трансформера на основе этого изображения: Предположим, $n$ — это количество токенов, $d_e$ — размерность эмбеддингов, а $d_m$ — размерность модели. Насколько я понимаю, матрицы позиционного
Data Science
Почему нам нужно косинусное позиционное кодирование в многоголовой механизме внимания, основанном на трансформере?
00
Вопрос или проблема Насколько я понимаю, все токены передаются в трансформер одновременно, и позиционные кодировки помогают ему понять их порядок в последовательности. А косинусовое кодирование помогает захватить краткосрочные и долгосрочные зависимости
Data Science
Как дополнительно настроить трансформерную NLP-модель на специфическом для области наборе данных после общей настройки.
00
Вопрос или проблема Я хотел бы донастроить предварительно обученную модель типа BERT для задачи анализа семантического сходства в манере задачи SNLI/MNLI (т.е. классифицировать пары предложений на «заключение» или «противоречие»).
Data Science
Определение похожих пользователей по их поведению на сайте.
00
Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая
Data Science
В статье “Attention Is All You Need”, почему FFN в (2) аналогичны двум сверткам с размером ядра 1?
00
Вопрос или проблема Кроме того, зачем нам нужен FFN в каждом слое, если у нас уже есть внимание? Вот скриншот соответствующего раздела из Vaswani et al. (2017): Послойный слой прямой связи – это просто умножение матрицы с добавлением вектора смещения
Data Science
Возможно ли восстановить размеры входных данных после прохождения через модуль преобразования токенов и слой трансформера?
00
Вопрос или проблема Рассмотрите модель, которая включает модуль Tokens-to-Token (T2T) (как предложено в [https://arxiv.org/abs/2101.11986]), за которым следует слой трансформера. Предположим, что входные данные для модели имеют размеры 𝐻×𝑊×𝐶.
Data Science
Где я могу найти документацию или статью, упоминающую предобученную модель distilbert-base-nli-mean-tokens?
00
Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT
Data Science
Всегда ли переобучение плохо?
00
Вопрос или проблема Я обучил свою модель впервые и провел инференс на случайных изображениях. Когда я попробовал случайное изображение, которое имеет аналогичную позицию камеры с моим набором данных, она хорошо справляется с обнаружением реки.
Data Science
Предсказание кодов беременности с помощью трансформера
00
Вопрос или проблема Я пытаюсь предсказать коды беременности с помощью базовой архитектуры трансформатора. Эти коды беременности выглядят следующим образом: prg001, prg002 до prg030. Prg001 будет означать пренатальный скрининг, а prg030 будет означать исход родов для матери.
Data Science
Какую модель использовать, чтобы различать имена с одинаковыми словами?
00
Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “
Data Science
Позиционное кодирование перехода между последовательными элементами предложения
00
Вопрос или проблема Я хотел бы интерпретировать результат позиционного кодирования с учётом значений, которые я вижу, чтобы лучше понять концепцию. В простом случае, где есть два слова, w0 и w1, и размерность вектора 4, результат матрицы позиционного
Data Science
Философия циклических функций для позиционного кодирования
00
Вопрос или проблема Я прочитал несколько страниц, например, эту, о том, что такое позиционное кодирование и почему его оригинальные авторы пришли к идее использования синусоидальных функций. Тем не менее, у меня все еще есть некоторые вопросы о философии
Data Science
Какова основная роль кросс-доменных трансформерных энкодеров в htdemucs?
00
Вопрос или проблема Теперь я изучаю разделение музыкальных источников с использованием htdemucs. Как вы знаете, в htdemucs мы используем слой кодировщика трансформера кросс-доменной связи вместо общего слоя кодировщика/декодировщика, который использует
Data Science
Прогнозировать значения переменных характеристик по временным меткам.
00
Вопрос или проблема У меня есть набор данных, который содержит временные метки и количество пользователей на этой временной метке. У каждого пользователя есть значения ресурсов, которые изменяются с каждым временным штампом. Как я могу предсказать количество
Data Science
Как мне вводить и выводить временные ряды признаков и целевых величин в трансформер временных рядов?
00
Вопрос или проблема Я испытываю трансформер временных рядов PatchTST (статья, код) на имеющихся у меня данных временных рядов. Способ обработки данных в PatchTST следующий: Обратите внимание, что на строке 78-79 репозиторий делает следующее: self.
Data Science
Могу ли я добавить новый выходной класс в декодер и обучить только последний слой?
00
Вопрос или проблема Я задумываюсь, как подойти к проекту, где я хотел бы увеличить количество выходных классов уже обученной сети. У меня есть очень веские основания полагать, что модель уже усвоила соответствующую информацию, чтобы предсказать этот новый
Data Science
Как можно использовать TransformerXL для классификации текста?
00
Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому
Data Science
Как выбрать архитектуру нейронной сети?
00
Вопрос или проблема Как выбрать архитектуру нейронной сети? Примеры: «Что если мне нужно переводить слова?» «Генерировать текст, изображения?» «Играть в обычную игру?» «Играть в игру, которая меняется в зависимости от действий игрока, то есть нейронная