transformer - ответы на вопросы

Data Science

Как работает алгоритм обратного распространения ошибки в трансформере?

00

Вопрос или проблема Конкретно для решения проблемы генерации текста, а не перевода. Буквально нет ни одного обсуждения, блога или руководства, которое объясняет математику за этим. Мое лучшее предположение на данный момент: взять пример входного запроса “

Data Science

Какую модель лучше всего использовать для почасового потребления энергии?

00

Вопрос или проблема У меня есть набор данных с почасовым потреблением энергии в здании с 2010 по 2015 год. С обычной нейронной сетью я достигаю ~94% точности. Пока не пробовал с другими типами моделей. Стоит ли попробовать CNN?

Data Science

Какие гиперпараметры для стандартной LLM предоставляют наибольшую пользу по сравнению с затратами на производительность?

00

Вопрос или проблема У GPT-3 есть несколько гиперпараметров, определяющих архитектуру сети. Мой вопрос: какие из этих гиперпараметров, при увеличении, дают наибольшую выгоду в производительности по сравнению с вычислительной стоимостью?

Data Science

Inference SegFormer для сегментации изображений зависит от разрешения.

00

Вопрос или проблема У меня довольно необычное поведение для вывода SegFormer. Кажется, что иногда можно получить лучшее сегментирование, когда разрешение (размер изображения, а не дистанция между пикселями) уменьшается вдвое. Однако, этот тип архитектуры

Data Science

Загрузите LLM на нескольких GPU.

00

Вопрос или проблема Я занимаюсь доказательством концепции (POC) генерации текста с помощью LLM. У меня есть один экземпляр AWS p3.8x, который имеет 4 GPU, каждая объемом 16 ГБ. Я довольно новичок в использовании LLM и GPU. Когда я пытаюсь загрузить предобученную

Data Science

Сложности при извлечении предсказанных и целевых значений из модели TFT (pytorch)

00

Вопрос или проблема Я в первый раз создаю модель прогнозирования TFT с использованием PyTorch и испытываю трудности с извлечением предсказанных значений вместе с их соответствующими фактическими значениями из вывода. В идеале, я бы хотел получить dataframe

Data Science

Понимание VQ-GAN

00

Вопрос или проблема Я попытался понять, как работает VQ-GAN, но, к сожалению, мне не удалось этого сделать. Я пытался читать статьи и смотреть видео на эту тему. Я уверен, что хорошая и простая статья мне поможет. Вы помогли мне с трансформерами.

Data Science

Эта модель переобучается? Мой набор данных содержит цены на автомобили.

00

Вопрос или проблема Переподходит ли эта модель, насколько я знаю, если разница между потерями на обучении и валидации велика, модель переподходит, и я думаю, что эта разница не так велика, но я не уверен. И мне кажется, что потери обучения и валидации

Data Science

Трансформерная сеть классификации предсказывает один и тот же класс.

00

Вопрос или проблема Я разрабатываю нейронную сеть на основе трансформеров для бинарной классификации. Оба класса сбалансированы (по 750k наблюдений для каждого). Во время обучения значение потерь и метрик становится NaN после нескольких батчей (примерно через 50 батчей).

Data Science

Понимание алгоритма обучения архитектуры Трансформера

00

Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для

Data Science

Почему нам нужен полносвязный слой после части сложения и нормализации многоголового внимания в кодировщике?

00

Вопрос или проблема Я пытаюсь понять несколько аспектов архитектуры трансформера на основе этого изображения: Предположим, $n$ — это количество токенов, $d_e$ — размерность эмбеддингов, а $d_m$ — размерность модели. Насколько я понимаю, матрицы позиционного

Data Science

Почему нам нужно косинусное позиционное кодирование в многоголовой механизме внимания, основанном на трансформере?

00

Вопрос или проблема Насколько я понимаю, все токены передаются в трансформер одновременно, и позиционные кодировки помогают ему понять их порядок в последовательности. А косинусовое кодирование помогает захватить краткосрочные и долгосрочные зависимости

Data Science

Как дополнительно настроить трансформерную NLP-модель на специфическом для области наборе данных после общей настройки.

00

Вопрос или проблема Я хотел бы донастроить предварительно обученную модель типа BERT для задачи анализа семантического сходства в манере задачи SNLI/MNLI (т.е. классифицировать пары предложений на «заключение» или «противоречие»).

Data Science

Определение похожих пользователей по их поведению на сайте.

00

Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая

Data Science

В статье “Attention Is All You Need”, почему FFN в (2) аналогичны двум сверткам с размером ядра 1?

00

Вопрос или проблема Кроме того, зачем нам нужен FFN в каждом слое, если у нас уже есть внимание? Вот скриншот соответствующего раздела из Vaswani et al. (2017): Послойный слой прямой связи – это просто умножение матрицы с добавлением вектора смещения

Data Science

Возможно ли восстановить размеры входных данных после прохождения через модуль преобразования токенов и слой трансформера?

00

Вопрос или проблема Рассмотрите модель, которая включает модуль Tokens-to-Token (T2T) (как предложено в [https://arxiv.org/abs/2101.11986]), за которым следует слой трансформера. Предположим, что входные данные для модели имеют размеры 𝐻×𝑊×𝐶.

Data Science

Где я могу найти документацию или статью, упоминающую предобученную модель distilbert-base-nli-mean-tokens?

00

Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT

Data Science

Всегда ли переобучение плохо?

00

Вопрос или проблема Я обучил свою модель впервые и провел инференс на случайных изображениях. Когда я попробовал случайное изображение, которое имеет аналогичную позицию камеры с моим набором данных, она хорошо справляется с обнаружением реки.

Data Science

Предсказание кодов беременности с помощью трансформера

00

Вопрос или проблема Я пытаюсь предсказать коды беременности с помощью базовой архитектуры трансформатора. Эти коды беременности выглядят следующим образом: prg001, prg002 до prg030. Prg001 будет означать пренатальный скрининг, а prg030 будет означать исход родов для матери.

Data Science

Какую модель использовать, чтобы различать имена с одинаковыми словами?

00

Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “