Data Science
Работа с несколькими категориальными переменными с разными значениями.
00
Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных
Data Science
Где я могу найти документацию или статью, упоминающую предобученную модель distilbert-base-nli-mean-tokens?
00
Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT
Data Science
Включите мини-пакетную обработку в Word Embeddings PyTorch
00
Вопрос или проблема Я новичок в PyTorch и пытаюсь создать векторные представления слов. Я начал с примера ниже, и все работает хорошо и выполняется относительно быстро. CONTEXT_SIZE = 2 EMBEDDING_DIM = 10 # Мы будем использовать Сонет 2 Шекспира test_sentence
Data Science
Как использовать набор данных словаря для классификации текста?
00
Вопрос или проблема У меня есть набор данных, аналогичный newsgroup20, для классификации. С обучающим набором данных у меня есть набор данных словаря, который объясняет некоторые жаргоны в обучающем наборе данных. Эти два набора данных различны, так как
Data Science
BERT испытывает нехватку памяти при прямом проходе для моего словаря.
00
Вопрос или проблема Запуская код из этого ответа, мой BERT заканчивается для моего словаря из 4000 слов. Мне пока ничего не нужно делать с этими словами, просто создать эмбеддинги для моих данных. Итак, используя это именно: from transformers import BertModel
Data Science
Как вычислить среднее значение векторного представления слов и затем сравнить строки, используя sklearn.metrics.pairwise.
00
Вопрос или проблема Я абсолютно новичок в этой теме, поэтому я так запутался и застрял в этом коде на некоторое время, но я не уверен, как правильно решить это. Моя цель – написать короткое текстовое встраивание с использованием векторного представления из текста.
Data Science
Ошибка Gensim doc2vec: KeyError: “слово ‘senseless’ не в словаре”
00
Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.
Data Science
Литература по выбору конкретных измерений в векторе встраивания слов
00
Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных
Data Science
Какие уравнения участвуют в расчете параметров слоя внедрения?
00
Вопрос или проблема Я пытаюсь провести анализ настроений по некоторым данным, используя keras. Я использую слой встраивания и затем LSTM. Я знаю, что слой встраивания снижает разреженность кодирования “один-горячий”
Data Science
Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?
00
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
Комбинирование различных признаков в качестве входных данных для нейронной сети
00
Вопрос или проблема Я использую два разных источника информации как входные данные для своей нейронной модели. Модель принимает слово в качестве ввода и производит бинарный [1/0] выход. Я представляю каждое слово, используя его векторное представление
Data Science
Сомнение в ELMO, BERT, Word2Vec
00
Вопрос или проблема Я прочитал ответ на Quora, где специалист по НЛП указал, что использование вложений ELMO и BERT в качестве входных данных для LSTM или некоторой RNN сводит на нет назначение ELMo и BERT. Я не уверен, что согласен с этим утверждением.
Data Science
Производит ли нейронная сеть Word2Vec с методом skip-gram даже контекстные слова?
00
Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок
Data Science
Векторное представление документов для классификации текста
00
Вопрос или проблема Я ищу правильный метод встраивания документов. Я знаю, что doc2vec даст мне векторные представления для данного корпуса, но как мне встраивать новые документы? Мне нужно обучить нейронную сеть, которая будет классифицировать текст
Data Science
веса матрицы со-в occurrences в GloVe
00
Вопрос или проблема Я изучал теорию GloVe и проверял некоторые её реализации. Прежде чем передать данные нейронным сетям, я заметил, что веса матрицы со-occurrence не являются счетами между целевыми и контекстными словами; вместо этого матрица весится
Data Science
Обучение fasttext на собственном корпусе
00
Вопрос или проблема Я хочу обучить fasttext на своей собственной корпусе. Однако у меня есть маленький вопрос перед продолжением. Нужно ли мне каждое предложение как отдельный элемент в корпусе, или я могу иметь много предложений как один элемент?
Data Science
Неясно относительно смещения относительной позиции.
00
Вопрос или проблема Я читал статью о Swin Transformer и наткнулся на концепцию относительного позиционного смещения. Я не могу понять, почему это более эффективно, чем позиционные эмбеддинги. Надеюсь, кто-то сможет объяснить это интуитивно. Заранее спасибо!
Data Science
Какую предобученную модель выбрать для генерации векторов из названий магазинов, написанных на английском языке?
00
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Векторные представления на уровне символов в Python
00
Вопрос или проблема Я работаю над задачей обработки естественного языка, которая требует использования эмбеддингов на уровне символов, и я пытался использовать Spacy. Однако, похоже, что spacy использует эмбеддинги на уровне слов для векторов слов, а
Data Science
Как я могу преобразовать свои предсказания в текст после предсказания с использованием RNN?
00
Вопрос или проблема Я создаю теггер частей речи для нашего языка. Я передаю токены слова и теги, используя Tokenizer(). Функции для слова и тега разные. # кодировать Y tag_tokenizer = Tokenizer() tag_tokenizer.fit_on_texts(tags) Y_encoded = tag_tokenizer.