word2vec - ответы на вопросы

Data Science

Какой лучший способ использовать word2vec для оценки сходства двуязычного текста?

00

Вопрос или проблема У меня возникла проблема, когда мне нужно вычислять сходства между двуязычными (английскими и французскими) текстами. “База данных” выглядит так: +-+-+-+ | |F|E| +-+-+-+ |1|X|X| +-+-+-+ |2| |X| +-+-+-+ |3|X| | +-+-+-+ |4|X|

Data Science

Семантическая сеть с использованием word2vec

00

Вопрос или проблема У меня есть тысячи заголовков, и я хотел бы построить семантическую сеть с использованием word2vec, в частности файлов Google News. Мои предложения выглядят так: Заголовки Собаки — лучшие друзья людей Собака погибла из-за несчастного

Data Science

Почему у модели GloVe (от gensim) нет векторов для чисел 1, 2, …?

00

Вопрос или проблема Я ожидал, что у GLoVe будут векторы для чисел. from gensim import downloader as api glove = api.load("glove-twitter-25") glove['1'] Это приводит к KeyError: "Key '1' not present" GLoVe игнорирует числа? Или они каким-то образом токенизированы?

Data Science

Обработка векторных представлений слов как многомерные гауссовские случайные величины

00

Вопрос или проблема Я хочу задать некоторую вероятностную модель кластеризации (например, смешанную модель или LDA) для слов, и вместо использования традиционного метода представления слов в виде вектора-индикатора я хочу использовать соответствующие

Data Science

Изучение сходства представлений

00

Вопрос или проблема Меня интересует платформа для изучения сходства различных входных представлений на основе некоторого общего контекста. Я изучал word2vec, SVD и другие рекомендательные системы, которые более или менее делают то, что мне нужно.

Data Science

Векторные элементы word2vec?

00

Вопрос или проблема В word2vec я понимаю, что выбор размера вектора, скажем, 100, даст мне вектор слова, который имеет корреляцию (как бы) между словом и 100 другими словами в корпусе. Мой вопрос: одинаковы ли эти 100 слов для каждого слова?

Data Science

Как я могу использовать все возможные коррекции орфографии документов перед кластеризацией этих документов?

00

Вопрос или проблема У меня есть набор данных с множеством документов, по 50-100 слов каждый. Мне нужно очистить эти данные, исправив орфографические ошибки в этих документах. У меня есть алгоритм, который предсказывает возможные правильные слова для неверно написанных слов.

Data Science

Как использовать набор данных словаря для классификации текста?

00

Вопрос или проблема У меня есть набор данных, аналогичный newsgroup20, для классификации. С обучающим набором данных у меня есть набор данных словаря, который объясняет некоторые жаргоны в обучающем наборе данных. Эти два набора данных различны, так как

Data Science

Как вычислить среднее значение векторного представления слов и затем сравнить строки, используя sklearn.metrics.pairwise.

00

Вопрос или проблема Я абсолютно новичок в этой теме, поэтому я так запутался и застрял в этом коде на некоторое время, но я не уверен, как правильно решить это. Моя цель – написать короткое текстовое встраивание с использованием векторного представления из текста.

Data Science

Литература по выбору конкретных измерений в векторе встраивания слов

00

Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных

Data Science

Производит ли нейронная сеть Word2Vec с методом skip-gram даже контекстные слова?

00

Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок

Data Science

Мобильные модели Word2vec

00

Вопрос или проблема Скажите мне, есть ли w2v модели, которые не требуют словаря. Все, что я нашел в torchtext, сначала хочет узнать словарь build_vocab. Но если у меня есть огромный объем текста, я хотел бы иметь модель, которая работает на уровне фраз.

Data Science

Встраивания товаров

00

Вопрос или проблема Привет, у меня есть список корзин покупок от клиентов, и я хотел бы создать эмбеддинги для продуктов. Например: КОРЗИНА1 = [‘ПРОДУКТ234’, ‘ПРОДУКТ214’, ‘ПРОДУКТ768’] КОРЗИНА2 = [‘

Data Science

Как определить сходство текста на основе обучающих данных?

00

Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому

Data Science

Выравнивание тем / моделирование тем

00

Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды

Data Science

Возможно ли использовать Word2vec для парафразирования текста?

00

Вопрос или проблема После прочтения нескольких статей я не уверен, возможно ли как-то сгенерировать текст с тем же значением (парафразировать его), используя только Word2vec. Я нашел другие подходы, которые используют последовательности пар предложений

Data Science

Как я могу преобразовать свои предсказания в текст после предсказания с использованием RNN?

00

Вопрос или проблема Я создаю теггер частей речи для нашего языка. Я передаю токены слова и теги, используя Tokenizer(). Функции для слова и тега разные. # кодировать Y tag_tokenizer = Tokenizer() tag_tokenizer.fit_on_texts(tags) Y_encoded = tag_tokenizer.

Data Science

Как использовать Word2Vec CBOW в статистическом алгоритме?

00

Вопрос или проблема Я видел несколько примеров использования CBOW в моделях нейронных сетей (хотя я их не понял). Я знаю, что Word2Vec не похож на BOW или TFIDF, так как для CBOW нет единственного значения, и все примеры, которые я видел, использовали нейронные сети.

Data Science

Реализация Cat2Vec X = категориальный, y = категориальный

00

Вопрос или проблема Я пытаюсь преобразовать категориальные значения (почтовые индексы) с помощью Cat2Vec в матрицу, которая может быть использована в качестве входной формы для категориального прогнозирования целевой переменной с бинарными значениями.

Data Science

Как мы получаем выходной слой в скип-грам?

00

Вопрос или проблема Не могли бы вы объяснить, как мы получаем выходной слой в этой архитектуре (векторы [0.2, 0.8, -1.4, 1.2] и [-0.3, 0.2, -0.7, 0.1]). Я понимаю, что предыдущий слой — это встраивания слова “коричневый”