nlp
Data Science
Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –
Data Science
Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT
Data Science
Вопрос или проблема У меня есть набор данных (в формате CSV). Моя основная цель – распознавание именованных сущностей и использование алгоритмов, которые на сегодня являются передовыми, например, согласно сайту nlpprogress.
Data Science
Вопрос или проблема Для GLM: General Language Model Pretraining with Autoregressive Blank Infilling , Могу я спросить, как осуществляется выборка для разделения ввода на шаге (b) ? Почему на шаге (c) зеленый x3 перемещается в конец?
Data Science
Вопрос или проблема Я ищу относительно простой алгоритм NLP, который помог бы мне оценить степень схожести между двумя предложениями. Эти предложения обычно содержат примерно от 1 до 5 слов. Контекст: Пользователь может создавать столько категорий, сколько
Data Science
Вопрос или проблема Я начал небольшой проект, в котором пытаюсь дообучить модель для классификации с нулевым обучением на собственном наборе данных. Я думал использовать подход NLI, создавая противоречащие и подтверждающие утверждения для каждой пары
Data Science
Вопрос или проблема Я хочу обучить бинарный классификатор на текстах — что-то вроде анализа настроений, но мои входные векторы будут представлять собой серию ответов от пользователя, разделенных некоторым разделяющим символом.
Data Science
Вопрос или проблема Является ли сглаживание в ngram модели обработки естественного языка выполненным на тестовых данных или на обучающих данных? Поскольку сглаживание необходимо, чтобы избежать предсказания языковой моделью нулевой вероятности для невидимого корпуса (тестового).
Data Science
Вопрос или проблема Как реализовать STS (Семантическое Текстовое Сходство) на неразмеченном наборе данных? Столбец набора данных содержит Unique_id, text1 (содержит абзац) и text2 (содержит абзац). Пример: Представление столбца: Unique_id | Text1 | Text2
Data Science
Вопрос или проблема Я новичок в обработке естественного языка, и моя цель — найти способ оценивать предложения на основе их эмоционального напряжения. Более конкретно, я хотел бы знать, в какой степени предложение передает желание, ненависть или страх.
Data Science
Вопрос или проблема В сверточных нейронных сетях у нас есть представление о том, что внутренние слои обучаются распознавать тонкие детали, такие как линии и края, в то время как внешние слои изучают более сложные формы. Есть ли у нас какое-либо аналогичное
Data Science
Вопрос или проблема Я ищу решение проблемы мультиклассовой классификации с длинными последовательностями текста, где в некоторых строках содержится тысячи токенов. Некоторые современные методы, такие как BERT, имеют ограничение на количество токенов
Data Science
Вопрос или проблема Пример кода: import torch from transformers import Wav2Vec2Processor, HubertForCTC from datasets import load_dataset processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft") model = HubertForCTC.
Data Science
Вопрос или проблема У меня есть корпус из 23000 документов, которые нужно классифицировать на 5 различных категорий. У меня нет доступных помеченных данных, только текстовые документы свободной формы и ярлыки (да, ярлыки из одного слова, не темы).
Data Science
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Вопрос или проблема У нас есть разные предобученные модели, такие как BERT, USE, ELMo, Word2Vec, FastText и т. д., у нас есть документы разных размеров (большие, средние, маленькие). Теперь мы хотим провести сравнение документов.
Data Science
Вопрос или проблема У меня есть набор данных с множеством документов, по 50-100 слов каждый. Мне нужно очистить эти данные, исправив орфографические ошибки в этих документах. У меня есть алгоритм, который предсказывает возможные правильные слова для неверно написанных слов.
Data Science
Вопрос или проблема Я работаю над накоплением большой базы данных размеченных предложений для нескольких проектов/экспериментов. В настоящее время я использую только Википедию и проект Гутенберг в качестве источников данных. Между этими двумя источниками
Data Science
Вопрос или проблема Я работаю над ранжированием некоторых заголовков новостей (однаковая тема) в зависимости от того, сколько информации в них содержится. Я вычислил tf-idf значения для каждого слова в каждом документе в своем корпусе.
Data Science
Вопрос или проблема Я работаю над проектом, в котором мне необходимо классифицировать последовательности системных вызовов, мой набор данных представлен как последовательности целых чисел (от 1 до 340). Для классификации я вдохновился проектами по классификации текста.