nlp - ответы на вопросы - Page 12 of 13

Data Science

Обучение Word2Vec на именах вместо предложений

00

Вопрос или проблема У меня есть научная база данных с статьями и соавторами. С помощью этой базы данных я обучаю модель word2vec на соавторах. Цель использования здесь заключается в разрешении неоднозначностей авторов. Мне интересно, можно ли улучшить

Data Science

В чем разница между RNN и моделью CBOW?

00

Вопрос или проблема CBOW: Мы пытаемся предсказать следующее слово на основе контекста (определяемого как определенное окно слов вокруг целевого слова) RNN также может использоваться для предсказания следующего слова в последовательности, где каждый раз

Data Science

Как обучить миллионы встраиваний doc2vec с использованием GPU?

00

Вопрос или проблема Я пытаюсь обучить doc2vec на основе истории серфинга пользователей (URLs, привязанные к user_id). Я использую фреймворк глубокого обучения Chainer. Существует более 20 миллионов (user_id и URLs) векторов для инициализации, которые

Data Science

Учитывая два крупных корпуса текста из различных источников, существует ли принятый способ выявить различия в лексике (n-граммах) между ними?

00

Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “

Data Science

Как улучшить точность при классификации коротких текстов с ограниченным контекстом

00

Вопрос или проблема Мой случай использования заключается в классификации названий должностей по функциональным областям. Я дообучил all-mpnet-base-v2 с помощью Setfit, предоставив около 10 примеров для каждого класса (функциональные области).

Data Science

Поиск связанных слов с именованной сущностью

00

Вопрос или проблема Существует ли способ найти список связанных слов с именованной сущностью? Например: пусть именованная сущность будет FIFA. FIFA — это футбольная организация, и, следовательно, она связана с термином “

Data Science

Соответствие набора испорченных строк правильным строкам

00

Вопрос или проблема Я довольно новичок в науке о данных, но раньше сталкивался с ней. Следующая проблема вызывает у меня беспокойство, и я надеюсь, что вы можете направить меня в правильном направлении. Входными данными являются строки, из которых некоторые

Data Science

Предобучение модели RoBERTa на новых данных с использованием библиотеки PyTorch

01

Вопрос или проблема Я предварительно обучил модель RoBERTa на новых данных, используя библиотеку ‘simpletransformers‘: from simpletransformers.classification import ClassificationModel OUTPUT_DIR = 'roberta_output/' model = ClassificationModel('roberta'

Data Science

Какие методы выбора признаков для обработки естественного языка это представляет?

00

Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.

Data Science

Как улучшить классификацию документов между двумя похожими документами

00

Вопрос или проблема У меня есть задача классификации документов, где мне нужно определить, связан ли определённый документ с недвижимостью или нет. Я получаю URL веб-страницы, из которой извлекаю весь текст, а затем с помощью своей обученной модели, основанной

Data Science

Почему в сглаживании n-грам модели в NLP мы не учитываем токены начала и конца предложения?

00

Вопрос или проблема Изучая сглаживание Add-1, я заметил, что мы каким-то образом добавляем 1 к каждому слову в нашем словаре, но не учитываем начало и конец предложения как два слова в словаре. Позвольте мне привести пример для объяснения.

Data Science

Речь в текст для неподдерживаемого языка

00

Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.

Data Science

Как соотносятся текстовая аналитика, обработка естественного языка и такие задачи, как токенизация, лемматизация, удаление стоп-слов и т.д.?

00

Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими

Data Science

Лучший алгоритм для рекомендательной системы на основе текста

00

Вопрос или проблема Помогите мне разобраться в лучшем алгоритме для системы рекомендаций статей, которая использует содержание статей для формирования рекомендаций. Какой алгоритм следует рассмотреть в случае большого объема текстовых данных для рекомендаций?

Data Science

Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.

00

Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать

Data Science

Как обучить нейронные векторные представления слов?

00

Вопрос или проблема Итак, я новичок в области глубокого обучения и обработки естественного языка (NLP). Я прочитал несколько блогов на Medium, Towards Data Science и статьи, где говорится о предварительном обучении векторных представлений слов в несупервизорном

Data Science

Набор данных с несколькими вариантами ответов для дообучения

00

Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы

Data Science

Существует ли база данных текстового сходства для фраз?

00

Вопрос или проблема Я хочу обучить свое приложение для оценки схожести фраз. Я хочу, чтобы моя модель предсказывала коэффициент схожести для фраз, как показано в приведенных ниже примерах. пример- International Business Machines = I.

Data Science

Формы mat1 и mat2 не могут быть перемножены (100×200 и 100×9922)

00

Вопрос или проблема Я пытаюсь создать языковую модель BiLSTM и испытываю некоторые проблемы. Модель class BiLSTM(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights): super().

Data Science

Как правильно реализовать RNN в Pytorch?

00

Вопрос или проблема Я прочитал о RNN в PyTorch: RNN — документация PyTorch. Согласно документу, RNN выполняет следующую функцию: Я посмотрел другой пример RNN (из учебника PyTorch): NLP С НУЛЯ: КЛАССИФИКАЦИЯ ИМЕН С ПОМОЩЬЮ RNN УРОВНЯ СИМВОЛОВ.