word2vec
Data Science
Вопрос или проблема Я ожидал, что у GLoVe будут векторы для чисел. from gensim import downloader as api glove = api.load("glove-twitter-25") glove['1'] Это приводит к KeyError: "Key '1' not present" GLoVe игнорирует числа? Или они каким-то образом токенизированы?
Data Science
Вопрос или проблема Я хочу задать некоторую вероятностную модель кластеризации (например, смешанную модель или LDA) для слов, и вместо использования традиционного метода представления слов в виде вектора-индикатора я хочу использовать соответствующие
Data Science
Вопрос или проблема Меня интересует платформа для изучения сходства различных входных представлений на основе некоторого общего контекста. Я изучал word2vec, SVD и другие рекомендательные системы, которые более или менее делают то, что мне нужно.
Data Science
Вопрос или проблема В word2vec я понимаю, что выбор размера вектора, скажем, 100, даст мне вектор слова, который имеет корреляцию (как бы) между словом и 100 другими словами в корпусе. Мой вопрос: одинаковы ли эти 100 слов для каждого слова?
Data Science
Вопрос или проблема У меня есть набор данных с множеством документов, по 50-100 слов каждый. Мне нужно очистить эти данные, исправив орфографические ошибки в этих документах. У меня есть алгоритм, который предсказывает возможные правильные слова для неверно написанных слов.
Data Science
Вопрос или проблема У меня есть набор данных, аналогичный newsgroup20, для классификации. С обучающим набором данных у меня есть набор данных словаря, который объясняет некоторые жаргоны в обучающем наборе данных. Эти два набора данных различны, так как
Data Science
Вопрос или проблема Я абсолютно новичок в этой теме, поэтому я так запутался и застрял в этом коде на некоторое время, но я не уверен, как правильно решить это. Моя цель – написать короткое текстовое встраивание с использованием векторного представления из текста.
Data Science
Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных
Data Science
Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок
Data Science
Вопрос или проблема Скажите мне, есть ли w2v модели, которые не требуют словаря. Все, что я нашел в torchtext, сначала хочет узнать словарь build_vocab. Но если у меня есть огромный объем текста, я хотел бы иметь модель, которая работает на уровне фраз.
Data Science
Вопрос или проблема Привет, у меня есть список корзин покупок от клиентов, и я хотел бы создать эмбеддинги для продуктов. Например: КОРЗИНА1 = [‘ПРОДУКТ234’, ‘ПРОДУКТ214’, ‘ПРОДУКТ768’] КОРЗИНА2 = [‘
Data Science
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Вопрос или проблема После прочтения нескольких статей я не уверен, возможно ли как-то сгенерировать текст с тем же значением (парафразировать его), используя только Word2vec. Я нашел другие подходы, которые используют последовательности пар предложений
Data Science
Вопрос или проблема Я создаю теггер частей речи для нашего языка. Я передаю токены слова и теги, используя Tokenizer(). Функции для слова и тега разные. # кодировать Y tag_tokenizer = Tokenizer() tag_tokenizer.fit_on_texts(tags) Y_encoded = tag_tokenizer.
Data Science
Вопрос или проблема Я видел несколько примеров использования CBOW в моделях нейронных сетей (хотя я их не понял). Я знаю, что Word2Vec не похож на BOW или TFIDF, так как для CBOW нет единственного значения, и все примеры, которые я видел, использовали нейронные сети.
Data Science
Вопрос или проблема Я пытаюсь преобразовать категориальные значения (почтовые индексы) с помощью Cat2Vec в матрицу, которая может быть использована в качестве входной формы для категориального прогнозирования целевой переменной с бинарными значениями.
Data Science
Вопрос или проблема Не могли бы вы объяснить, как мы получаем выходной слой в этой архитектуре (векторы [0.2, 0.8, -1.4, 1.2] и [-0.3, 0.2, -0.7, 0.1]). Я понимаю, что предыдущий слой — это встраивания слова “коричневый”
Data Science
Вопрос или проблема Я совершенно нов в области машинного обучения и недавно познакомился с word2vec и BERT. Насколько я знаю, word2vec предоставляет векторное представление слов, но ограничен его словарным определением. Это означает, что алгоритм может
Data Science
Вопрос или проблема У меня есть очень простой вопрос относительно обучающей выборки в word2vec. В реализации skip-gram, обучающая выборка (если я правильно понимаю) генерируется в виде пар слов, как показано на этом изображении: Это, по сути, просто пары векторов one-hot.