Data Science
Обнаружение ссылок и цитат в документах
00
Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –
Data Science
Где я могу найти документацию или статью, упоминающую предобученную модель distilbert-base-nli-mean-tokens?
00
Вопрос или проблема Я пытаюсь найти больше информации о предварительно обученной модели distilbert-base-nli-mean-tokens. Может кто-нибудь, пожалуйста, указать мне на ее статью или документацию? Основана ли она на DistilBERT, дистиллированной версии BERT
Data Science
BIO Формат (Навыки, Квалификация, Опыт)
00
Вопрос или проблема У меня есть набор данных (в формате CSV). Моя основная цель – распознавание именованных сущностей и использование алгоритмов, которые на сегодня являются передовыми, например, согласно сайту nlpprogress.
Data Science
Вопросы о GLM: Предварительное обучение языковой модели общего назначения с авторегрессивным заполнением пробелов.
00
Вопрос или проблема Для GLM: General Language Model Pretraining with Autoregressive Blank Infilling , Могу я спросить, как осуществляется выборка для разделения ввода на шаге (b) ? Почему на шаге (c) зеленый x3 перемещается в конец?
Data Science
NLP для вычисления коэффициента схожести между предложениями длиной максимум 5-6 слов.
00
Вопрос или проблема Я ищу относительно простой алгоритм NLP, который помог бы мне оценить степень схожести между двумя предложениями. Эти предложения обычно содержат примерно от 1 до 5 слов. Контекст: Пользователь может создавать столько категорий, сколько
Data Science
Настроить модель классификации без примеров для многолейблового обозначения
00
Вопрос или проблема Я начал небольшой проект, в котором пытаюсь дообучить модель для классификации с нулевым обучением на собственном наборе данных. Я думал использовать подход NLI, создавая противоречащие и подтверждающие утверждения для каждой пары
Data Science
Обучение модели с рядом текстовых ответов в качестве входных данных.
00
Вопрос или проблема Я хочу обучить бинарный классификатор на текстах — что-то вроде анализа настроений, но мои входные векторы будут представлять собой серию ответов от пользователя, разделенных некоторым разделяющим символом.
Data Science
Является ли сглаживание в n-граммах NLP выполненным на тестовых данных или обучающих данных?
00
Вопрос или проблема Является ли сглаживание в ngram модели обработки естественного языка выполненным на тестовых данных или на обучающих данных? Поскольку сглаживание необходимо, чтобы избежать предсказания языковой моделью нулевой вероятности для невидимого корпуса (тестового).
Data Science
Как можно выполнить STS (Семантическое текстовое сходство) на неразмеченном наборе данных с использованием глубокого обучения?
00
Вопрос или проблема Как реализовать STS (Семантическое Текстовое Сходство) на неразмеченном наборе данных? Столбец набора данных содержит Unique_id, text1 (содержит абзац) и text2 (содержит абзац). Пример: Представление столбца: Unique_id | Text1 | Text2
Data Science
Оценка эмоционального напряжения в предложениях
00
Вопрос или проблема Я новичок в обработке естественного языка, и моя цель — найти способ оценивать предложения на основе их эмоционального напряжения. Более конкретно, я хотел бы знать, в какой степени предложение передает желание, ненависть или страх.
Data Science
Понимание слоев в рекуррентных нейронных сетях для обработки естественного языка
00
Вопрос или проблема В сверточных нейронных сетях у нас есть представление о том, что внутренние слои обучаются распознавать тонкие детали, такие как линии и края, в то время как внешние слои изучают более сложные формы. Есть ли у нас какое-либо аналогичное
Data Science
Какие существуют методы обработки мультиметочной классификации для длинных последовательностей текста?
00
Вопрос или проблема Я ищу решение проблемы мультиклассовой классификации с длинными последовательностями текста, где в некоторых строках содержится тысячи токенов. Некоторые современные методы, такие как BERT, имеют ограничение на количество токенов
Data Science
Как получить аудиовстраивания с помощью модели Hubert
00
Вопрос или проблема Пример кода: import torch from transformers import Wav2Vec2Processor, HubertForCTC from datasets import load_dataset processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft") model = HubertForCTC.
Data Science
Возможно ли классифицировать документы корпуса с помощью меток?
00
Вопрос или проблема У меня есть корпус из 23000 документов, которые нужно классифицировать на 5 различных категорий. У меня нет доступных помеченных данных, только текстовые документы свободной формы и ярлыки (да, ярлыки из одного слова, не темы).
Data Science
Кластеризация смешанных типов данных – числовых, категориальных, массивов и текста.
00
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Какой лучший способ выбрать подходящую модель для сравнения документов?
00
Вопрос или проблема У нас есть разные предобученные модели, такие как BERT, USE, ELMo, Word2Vec, FastText и т. д., у нас есть документы разных размеров (большие, средние, маленькие). Теперь мы хотим провести сравнение документов.
Data Science
Как я могу использовать все возможные коррекции орфографии документов перед кластеризацией этих документов?
00
Вопрос или проблема У меня есть набор данных с множеством документов, по 50-100 слов каждый. Мне нужно очистить эти данные, исправив орфографические ошибки в этих документах. У меня есть алгоритм, который предсказывает возможные правильные слова для неверно написанных слов.
Data Science
Мне нужны источники вопросительных, восклицательных и повелительных предложений.
00
Вопрос или проблема Я работаю над накоплением большой базы данных размеченных предложений для нескольких проектов/экспериментов. В настоящее время я использую только Википедию и проект Гутенберг в качестве источников данных. Между этими двумя источниками
Data Science
TF-IDF для ранжирования документов
00
Вопрос или проблема Я работаю над ранжированием некоторых заголовков новостей (однаковая тема) в зависимости от того, сколько информации в них содержится. Я вычислил tf-idf значения для каждого слова в каждом документе в своем корпусе.
Data Science
Использование классификации текста для системных вызовов
00
Вопрос или проблема Я работаю над проектом, в котором мне необходимо классифицировать последовательности системных вызовов, мой набор данных представлен как последовательности целых чисел (от 1 до 340). Для классификации я вдохновился проектами по классификации текста.