Data Science
Как токенизация WordPiece помогает эффективно справляться с проблемой редких слов в НЛП?
00
Вопрос или проблема Я заметил, что модели NLP, такие как BERT, используют WordPiece для токенизации. В WordPiece мы разбиваем токены, например, playing на play и ##ing. Упоминается, что он охватывает более широкий спектр слов, находящихся вне словаря (OOV).
Data Science
Предсказание слова из набора слов
00
Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными
Data Science
Инициализация весов, которые являются поэлементным произведением нескольких переменных.
00
Вопрос или проблема В двухслойных персептронах, которые скользят по словам текста, таких как word2vec и fastText, высоты скрытых слоев могут быть произведением двух случайных переменных, таких как позиционные эмбеддинги и эмбеддинги слов (Mikolov et al.
Data Science
Генерация текстов на уровне слов с использованием векторных представлений слов – вывод векторного слова вместо распределения вероятностей.
00
Вопрос или проблема Сейчас я изучаю тему генерации текста для своего университетского проекта. Я (конечно) решил использовать RNN, принимая последовательность токенов на входе с целью предсказать следующий токен, исходя из этой последовательности.
Data Science
Убедитесь, что обученные словесные вложения имеют высокую схожесть с конкретными словами.
00
Вопрос или проблема Я пробую свои силы в обучении модели Word2Vec с использованием gensim. Я создал простой файл для обучения, который по сути содержал одну и ту же строку, повторенную несколько раз развлечения фильмы Фильмы кино развлечения Фильмы развлечения
Data Science
Обучение Word2Vec на именах вместо предложений
00
Вопрос или проблема У меня есть научная база данных с статьями и соавторами. С помощью этой базы данных я обучаю модель word2vec на соавторах. Цель использования здесь заключается в разрешении неоднозначностей авторов. Мне интересно, можно ли улучшить
Data Science
Как обучить миллионы встраиваний doc2vec с использованием GPU?
00
Вопрос или проблема Я пытаюсь обучить doc2vec на основе истории серфинга пользователей (URLs, привязанные к user_id). Я использую фреймворк глубокого обучения Chainer. Существует более 20 миллионов (user_id и URLs) векторов для инициализации, которые
Data Science
Как обучить нейронные векторные представления слов?
00
Вопрос или проблема Итак, я новичок в области глубокого обучения и обработки естественного языка (NLP). Я прочитал несколько блогов на Medium, Towards Data Science и статьи, где говорится о предварительном обучении векторных представлений слов в несупервизорном
Data Science
Модель Word2vec CBOW с негативной выборкой
00
Вопрос или проблема Из этой статьи: В модели vanilla skip gram функция softmax является вычислительно очень затратной, так как требует сканирования всей матрицы выходных эмбеддингов (W_output) для вычисления вероятностного распределения всех V слов, где
Data Science
Рассчитайте корреляцию двух списков эмбеддингов.
00
Вопрос или проблема У меня есть два списка предложений A=["Astring1", "Astring2",...,"AstringN"] B=["Bstring1", "Bstring2",...,"BstringN"] Я использовал модель встраивания, такую как BERT, чтобы получить векторные представления всех моих строк в каждом
Data Science
Подготовка обучающих данных для задачи машинного обучения в области обработки естественного языка
00
Вопрос или проблема У меня есть предложения на естественном языке, как показано ниже: Это черный стул. Он находится рядом со столом. Каждая фраза, которая представляет объект, аннотирована идентификатором объекта. Например, в приведенном выше предложении