Data Science
Извлечение структурированных данных из полуструктурированных данных
00
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Как использовать классификацию текстов, если источником обучения являются текстовые файлы в категоризованных папках?
00
Вопрос или проблема У меня есть 200 уникальных файлов *.txt для каждой папки: Каждый файл содержит первоначальный текст иска, разделенный по юридическим областям (папкам) общественной защиты. Я хотел бы создать обучающие данные для прогнозирования новых
Data Science
Как улучшить точность при классификации коротких текстов с ограниченным контекстом
00
Вопрос или проблема Мой случай использования заключается в классификации названий должностей по функциональным областям. Я дообучил all-mpnet-base-v2 с помощью Setfit, предоставив около 10 примеров для каждого класса (функциональные области).
Data Science
Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.
00
Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать
Data Science
Как использовать scikit-learn для извлечения признаков из текста, если у меня есть только положительные и неразмеченные данные?
00
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
TF Keras Обработка текста – Модель классификации
00
Вопрос или проблема Я пытаюсь составить скрипт, который классифицирует комментарии на адекватные и неадекватные. Я ранее задавал вопрос здесь с полным кодом, но думаю, что изолировал проблему в настройке модели, поэтому я его удалил и надеюсь, что это
Data Science
Смешение классов в нейронных сетях (обучение против тестирования)
00
Вопрос или проблема Я новичок в глубоком обучении и запутался из-за того, что нейронная сеть обучается на определенных классах и тестируется на других. Допустим, я хочу создать сверточную нейронную сеть, которая будет определять авторство текста (идентификация
Data Science
Как сопоставить корпус со строкой слов, используя матрицу TF-IDF?
00
Вопрос или проблема Я пытаюсь сопоставить наборы слов с веб-сайтом, который имеет маркированные пункты, текст которых наиболее схож с ними. Я подумал, что можно сделать это следующим образом: собрать все документы из каждого маркированного пункта в один