word-embeddings - ответы на вопросы

Data Science

Работа с несколькими категориальными переменными с разными значениями.

00

Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных

Data Science

Где я могу найти документацию или статью, упоминающую предобученную модель distilbert-base-nli-mean-tokens?

00

Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT

Data Science

Включите мини-пакетную обработку в Word Embeddings PyTorch

00

Вопрос или проблема Я новичок в PyTorch и пытаюсь создать векторные представления слов. Я начал с примера ниже, и все работает хорошо и выполняется относительно быстро. CONTEXT_SIZE = 2 EMBEDDING_DIM = 10 # Мы будем использовать Сонет 2 Шекспира test_sentence

Data Science

Как использовать набор данных словаря для классификации текста?

00

Вопрос или проблема У меня есть набор данных, аналогичный newsgroup20, для классификации. С обучающим набором данных у меня есть набор данных словаря, который объясняет некоторые жаргоны в обучающем наборе данных. Эти два набора данных различны, так как

Data Science

BERT испытывает нехватку памяти при прямом проходе для моего словаря.

00

Вопрос или проблема Запуская код из этого ответа, мой BERT заканчивается для моего словаря из 4000 слов. Мне пока ничего не нужно делать с этими словами, просто создать эмбеддинги для моих данных. Итак, используя это именно: from transformers import BertModel

Data Science

Как вычислить среднее значение векторного представления слов и затем сравнить строки, используя sklearn.metrics.pairwise.

00

Вопрос или проблема Я абсолютно новичок в этой теме, поэтому я так запутался и застрял в этом коде на некоторое время, но я не уверен, как правильно решить это. Моя цель – написать короткое текстовое встраивание с использованием векторного представления из текста.

Data Science

Ошибка Gensim doc2vec: KeyError: “слово ‘senseless’ не в словаре”

00

Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.

Data Science

Литература по выбору конкретных измерений в векторе встраивания слов

00

Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных

Data Science

Какие уравнения участвуют в расчете параметров слоя внедрения?

00

Вопрос или проблема Я пытаюсь провести анализ настроений по некоторым данным, используя keras. Я использую слой встраивания и затем LSTM. Я знаю, что слой встраивания снижает разреженность кодирования “один-горячий”

Data Science

Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?

00

Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти

Data Science

Комбинирование различных признаков в качестве входных данных для нейронной сети

00

Вопрос или проблема Я использую два разных источника информации как входные данные для своей нейронной модели. Модель принимает слово в качестве ввода и производит бинарный [1/0] выход. Я представляю каждое слово, используя его векторное представление

Data Science

Сомнение в ELMO, BERT, Word2Vec

00

Вопрос или проблема Я прочитал ответ на Quora, где специалист по НЛП указал, что использование вложений ELMO и BERT в качестве входных данных для LSTM или некоторой RNN сводит на нет назначение ELMo и BERT. Я не уверен, что согласен с этим утверждением.

Data Science

Производит ли нейронная сеть Word2Vec с методом skip-gram даже контекстные слова?

00

Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок

Data Science

Векторное представление документов для классификации текста

00

Вопрос или проблема Я ищу правильный метод встраивания документов. Я знаю, что doc2vec даст мне векторные представления для данного корпуса, но как мне встраивать новые документы? Мне нужно обучить нейронную сеть, которая будет классифицировать текст

Data Science

веса матрицы со-в occurrences в GloVe

00

Вопрос или проблема Я изучал теорию GloVe и проверял некоторые её реализации. Прежде чем передать данные нейронным сетям, я заметил, что веса матрицы со-occurrence не являются счетами между целевыми и контекстными словами; вместо этого матрица весится

Data Science

Обучение fasttext на собственном корпусе

00

Вопрос или проблема Я хочу обучить fasttext на своей собственной корпусе. Однако у меня есть маленький вопрос перед продолжением. Нужно ли мне каждое предложение как отдельный элемент в корпусе, или я могу иметь много предложений как один элемент?

Data Science

Неясно относительно смещения относительной позиции.

00

Вопрос или проблема Я читал статью о Swin Transformer и наткнулся на концепцию относительного позиционного смещения. Я не могу понять, почему это более эффективно, чем позиционные эмбеддинги. Надеюсь, кто-то сможет объяснить это интуитивно. Заранее спасибо!

Data Science

Какую предобученную модель выбрать для генерации векторов из названий магазинов, написанных на английском языке?

00

Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”

Data Science

Векторные представления на уровне символов в Python

00

Вопрос или проблема Я работаю над задачей обработки естественного языка, которая требует использования эмбеддингов на уровне символов, и я пытался использовать Spacy. Однако, похоже, что spacy использует эмбеддинги на уровне слов для векторов слов, а

Data Science

Как я могу преобразовать свои предсказания в текст после предсказания с использованием RNN?

00

Вопрос или проблема Я создаю теггер частей речи для нашего языка. Я передаю токены слова и теги, используя Tokenizer(). Функции для слова и тега разные. # кодировать Y tag_tokenizer = Tokenizer() tag_tokenizer.fit_on_texts(tags) Y_encoded = tag_tokenizer.