nlp
Data Science
Вопрос или проблема У меня есть научная база данных с статьями и соавторами. С помощью этой базы данных я обучаю модель word2vec на соавторах. Цель использования здесь заключается в разрешении неоднозначностей авторов. Мне интересно, можно ли улучшить
Data Science
Вопрос или проблема CBOW: Мы пытаемся предсказать следующее слово на основе контекста (определяемого как определенное окно слов вокруг целевого слова) RNN также может использоваться для предсказания следующего слова в последовательности, где каждый раз
Data Science
Вопрос или проблема Я пытаюсь обучить doc2vec на основе истории серфинга пользователей (URLs, привязанные к user_id). Я использую фреймворк глубокого обучения Chainer. Существует более 20 миллионов (user_id и URLs) векторов для инициализации, которые
Data Science
Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “
Data Science
Вопрос или проблема Мой случай использования заключается в классификации названий должностей по функциональным областям. Я дообучил all-mpnet-base-v2 с помощью Setfit, предоставив около 10 примеров для каждого класса (функциональные области).
Data Science
Вопрос или проблема Существует ли способ найти список связанных слов с именованной сущностью? Например: пусть именованная сущность будет FIFA. FIFA — это футбольная организация, и, следовательно, она связана с термином “
Data Science
Вопрос или проблема Я довольно новичок в науке о данных, но раньше сталкивался с ней. Следующая проблема вызывает у меня беспокойство, и я надеюсь, что вы можете направить меня в правильном направлении. Входными данными являются строки, из которых некоторые
Data Science
Вопрос или проблема Я предварительно обучил модель RoBERTa на новых данных, используя библиотеку ‘simpletransformers‘: from simpletransformers.classification import ClassificationModel OUTPUT_DIR = 'roberta_output/' model = ClassificationModel('roberta'
Data Science
Вопрос или проблема У меня есть набор данных, полученный из НЛП для технических документов. Мой набор данных содержит 60 000 записей. В наборе данных имеется 30 000 признаков. Значение – это количество повторений, сколько раз слово/признак появлялось.
Data Science
Вопрос или проблема У меня есть задача классификации документов, где мне нужно определить, связан ли определённый документ с недвижимостью или нет. Я получаю URL веб-страницы, из которой извлекаю весь текст, а затем с помощью своей обученной модели, основанной
Data Science
Вопрос или проблема Изучая сглаживание Add-1, я заметил, что мы каким-то образом добавляем 1 к каждому слову в нашем словаре, но не учитываем начало и конец предложения как два слова в словаре. Позвольте мне привести пример для объяснения.
Data Science
Вопрос или проблема Я работаю над проектом, чтобы интегрировать старую добрую распознавание речи в своем приложении. Однако я хочу сделать это на диалекте моей страны, который не поддерживается такими крупными API, как Azure, AWS и т.
Data Science
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Вопрос или проблема Помогите мне разобраться в лучшем алгоритме для системы рекомендаций статей, которая использует содержание статей для формирования рекомендаций. Какой алгоритм следует рассмотреть в случае большого объема текстовых данных для рекомендаций?
Data Science
Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать
Data Science
Вопрос или проблема Итак, я новичок в области глубокого обучения и обработки естественного языка (NLP). Я прочитал несколько блогов на Medium, Towards Data Science и статьи, где говорится о предварительном обучении векторных представлений слов в несупервизорном
Data Science
Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы
Data Science
Вопрос или проблема Я хочу обучить свое приложение для оценки схожести фраз. Я хочу, чтобы моя модель предсказывала коэффициент схожести для фраз, как показано в приведенных ниже примерах. пример- International Business Machines = I.
Data Science
Вопрос или проблема Я пытаюсь создать языковую модель BiLSTM и испытываю некоторые проблемы. Модель class BiLSTM(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights): super().
Data Science
Вопрос или проблема Я прочитал о RNN в PyTorch: RNN — документация PyTorch. Согласно документу, RNN выполняет следующую функцию: Я посмотрел другой пример RNN (из учебника PyTorch): NLP С НУЛЯ: КЛАССИФИКАЦИЯ ИМЕН С ПОМОЩЬЮ RNN УРОВНЯ СИМВОЛОВ.