Data Science
Inference SegFormer для сегментации изображений зависит от разрешения.
00
Вопрос или проблема У меня довольно необычное поведение для вывода SegFormer. Кажется, что иногда можно получить лучшее сегментирование, когда разрешение (размер изображения, а не дистанция между пикселями) уменьшается вдвое. Однако, этот тип архитектуры
Data Science
Загрузите LLM на нескольких GPU.
00
Вопрос или проблема Я занимаюсь доказательством концепции (POC) генерации текста с помощью LLM. У меня есть один экземпляр AWS p3.8x, который имеет 4 GPU, каждая объемом 16 ГБ. Я довольно новичок в использовании LLM и GPU. Когда я пытаюсь загрузить предобученную
Data Science
Сложности при извлечении предсказанных и целевых значений из модели TFT (pytorch)
00
Вопрос или проблема Я в первый раз создаю модель прогнозирования TFT с использованием PyTorch и испытываю трудности с извлечением предсказанных значений вместе с их соответствующими фактическими значениями из вывода. В идеале, я бы хотел получить dataframe
Data Science
Понимание VQ-GAN
00
Вопрос или проблема Я попытался понять, как работает VQ-GAN, но, к сожалению, мне не удалось этого сделать. Я пытался читать статьи и смотреть видео на эту тему. Я уверен, что хорошая и простая статья мне поможет. Вы помогли мне с трансформерами.
Data Science
Эта модель переобучается? Мой набор данных содержит цены на автомобили.
00
Вопрос или проблема Переподходит ли эта модель, насколько я знаю, если разница между потерями на обучении и валидации велика, модель переподходит, и я думаю, что эта разница не так велика, но я не уверен. И мне кажется, что потери обучения и валидации
Data Science
Трансформерная сеть классификации предсказывает один и тот же класс.
00
Вопрос или проблема Я разрабатываю нейронную сеть на основе трансформеров для бинарной классификации. Оба класса сбалансированы (по 750k наблюдений для каждого). Во время обучения значение потерь и метрик становится NaN после нескольких батчей (примерно через 50 батчей).
Data Science
Понимание алгоритма обучения архитектуры Трансформера
00
Вопрос или проблема Я долго думал о маскировании в механизме самовнимания декодера в контексте обучения, и это действительно не имеет для меня смысла. Я просмотрел много источников, и они не помогли. Дано предложение-источник и целевое предложение для
Data Science
Почему нам нужен полносвязный слой после части сложения и нормализации многоголового внимания в кодировщике?
00
Вопрос или проблема Я пытаюсь понять несколько аспектов архитектуры трансформера на основе этого изображения: Предположим, $n$ — это количество токенов, $d_e$ — размерность эмбеддингов, а $d_m$ — размерность модели. Насколько я понимаю, матрицы позиционного
Data Science
Почему нам нужно косинусное позиционное кодирование в многоголовой механизме внимания, основанном на трансформере?
00
Вопрос или проблема Насколько я понимаю, все токены передаются в трансформер одновременно, и позиционные кодировки помогают ему понять их порядок в последовательности. А косинусовое кодирование помогает захватить краткосрочные и долгосрочные зависимости
Data Science
Как дополнительно настроить трансформерную NLP-модель на специфическом для области наборе данных после общей настройки.
00
Вопрос или проблема Я хотел бы донастроить предварительно обученную модель типа BERT для задачи анализа семантического сходства в манере задачи SNLI/MNLI (т.е. классифицировать пары предложений на «заключение» или «противоречие»).
Data Science
Определение похожих пользователей по их поведению на сайте.
00
Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая
Data Science
В статье “Attention Is All You Need”, почему FFN в (2) аналогичны двум сверткам с размером ядра 1?
00
Вопрос или проблема Кроме того, зачем нам нужен FFN в каждом слое, если у нас уже есть внимание? Вот скриншот соответствующего раздела из Vaswani et al. (2017): Послойный слой прямой связи – это просто умножение матрицы с добавлением вектора смещения
Data Science
Возможно ли восстановить размеры входных данных после прохождения через модуль преобразования токенов и слой трансформера?
00
Вопрос или проблема Рассмотрите модель, которая включает модуль Tokens-to-Token (T2T) (как предложено в [https://arxiv.org/abs/2101.11986]), за которым следует слой трансформера. Предположим, что входные данные для модели имеют размеры 𝐻×𝑊×𝐶.
Data Science
Где я могу найти документацию или статью, упоминающую предобученную модель distilbert-base-nli-mean-tokens?
00
Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT
Data Science
Всегда ли переобучение плохо?
00
Вопрос или проблема Я обучил свою модель впервые и провел инференс на случайных изображениях. Когда я попробовал случайное изображение, которое имеет аналогичную позицию камеры с моим набором данных, она хорошо справляется с обнаружением реки.
Data Science
Предсказание кодов беременности с помощью трансформера
00
Вопрос или проблема Я пытаюсь предсказать коды беременности с помощью базовой архитектуры трансформатора. Эти коды беременности выглядят следующим образом: prg001, prg002 до prg030. Prg001 будет означать пренатальный скрининг, а prg030 будет означать исход родов для матери.
Data Science
Какую модель использовать, чтобы различать имена с одинаковыми словами?
00
Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “
Data Science
Позиционное кодирование перехода между последовательными элементами предложения
00
Вопрос или проблема Я хотел бы интерпретировать результат позиционного кодирования с учётом значений, которые я вижу, чтобы лучше понять концепцию. В простом случае, где есть два слова, w0 и w1, и размерность вектора 4, результат матрицы позиционного
Data Science
Философия циклических функций для позиционного кодирования
00
Вопрос или проблема Я прочитал несколько страниц, например, эту, о том, что такое позиционное кодирование и почему его оригинальные авторы пришли к идее использования синусоидальных функций. Тем не менее, у меня все еще есть некоторые вопросы о философии
Data Science
Какова основная роль кросс-доменных трансформерных энкодеров в htdemucs?
00
Вопрос или проблема Теперь я изучаю разделение музыкальных источников с использованием htdemucs. Как вы знаете, в htdemucs мы используем слой кодировщика трансформера кросс-доменной связи вместо общего слоя кодировщика/декодировщика, который использует