Data Science
Модели последовательностей word2vec
00
Вопрос или проблема Я работаю с набором данных, который содержит более 100 000 записей. Вот как выглядят данные: email_id cust_id campaign_name 123 4567 World of Zoro 123 4567 Boho XYz 123 4567 Guess ABC 234 5678 Anniversary X 234 5678 World of Zoro 234
Data Science
Предсказание слова из набора слов
00
Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными
Data Science
Инициализация весов, которые являются поэлементным произведением нескольких переменных.
00
Вопрос или проблема В двухслойных персептронах, которые скользят по словам текста, таких как word2vec и fastText, высоты скрытых слоев могут быть произведением двух случайных переменных, таких как позиционные эмбеддинги и эмбеддинги слов (Mikolov et al.
Data Science
Какое минимальное количество раз слово должно появиться в корпусе для обучения word2vec для получения качественных результатов?
00
Вопрос или проблема При обучении модели word2vec с использованием, например, gensim, вы можете указать минимальное количество раз, которое должно быть увидено слово (параметр min_count). Значение по умолчанию для этого, похоже, равно 5.
Data Science
Обучение Word2Vec на именах вместо предложений
00
Вопрос или проблема У меня есть научная база данных с статьями и соавторами. С помощью этой базы данных я обучаю модель word2vec на соавторах. Цель использования здесь заключается в разрешении неоднозначностей авторов. Мне интересно, можно ли улучшить
Data Science
Модель Word2vec CBOW с негативной выборкой
00
Вопрос или проблема Из этой статьи: В модели vanilla skip gram функция softmax является вычислительно очень затратной, так как требует сканирования всей матрицы выходных эмбеддингов (W_output) для вычисления вероятностного распределения всех V слов, где