Data Science
Анализ классификации текста на основе сходства
00
Вопрос или проблема Я прочитал много литературы по классификации текстов и различным подходам/моделям, особенно с использованием языка Python, но, вероятно, я все еще не понимаю, как построить модели и какие шаги для этого нужны.
Data Science
Копии постов LinkedIn – инструменты анализа текста
00
Вопрос или проблема Я хочу использовать данные своей работы – 1000+ различных копий с полной мета-информацией из LI. У нас есть платформа SaaS для амбассадоров бренда, и мы предоставляем им инструмент для создания этих копий и планирования их.
Data Science
Как использовать онтологии для классификации текста?
00
Вопрос или проблема Я новичок в машинном обучении и хочу классифицировать предложения, используя онтологии (таксономии/графы знаний) и методы контролируемого обучения (у меня есть аннотированный обучающий набор данных). Мой вопрос: как использовать онтологию для этой задачи?
Data Science
Как улучшить свой F1-оценку в анализе историй
00
Вопрос или проблема Мне задали задание построить модель, которая идентифицирует пол автора текста. Оценка задания будет зависеть от f1_score моей модели, чтобы получить максимальные баллы, он должен быть как минимум 0.7. Мне предоставили 360 историй и
Data Science
Как определить сходство текста на основе обучающих данных?
00
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Как определить признаки, из-за которых модель неправильно классифицирует в текстовой классификации.
00
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Как уменьшить/увеличить выборку текста?
00
Вопрос или проблема У меня есть набор данных из 5566 образцов – один столбец содержит текст описания рецепта, а другой – это налоговый класс. Я хочу создать классификатор, который будет классифицировать рецепты, используя только машинное обучение.
Data Science
Как каталогизировать нелабелированные данные рекламных электронных писем
00
Вопрос или проблема У меня есть неразмеченные данные рекламных писем. Я хочу категоризировать эти письма по темам, таким как мода, здоровье и благополучие, спорт, медиа, развлечения и т. д. Можете ли вы подсказать какой-либо эффективный метод или предобученную
Data Science
Оптимальная настройка ввода для классификации текста на уровне символов с использованием RNN
00
Вопрос или проблема Я хочу классифицировать текстовые образцы длиной 500 символов на предмет того, похожи ли они на естественный язык, с помощью рекуррентной нейронной сети на уровне символов. Я не уверен, как лучше всего подавать входные данные в РНН.
Data Science
Классификация коротких строк текста с дополнительным контекстом
00
Вопрос или проблема У меня есть список коротких строк, каждая из которых определяет город. Орфографические ошибки очень распространены. Пример ниже показывает некоторые из этих коротких строк и правильный город, которому они должны соответствовать.
Data Science
Как обучить модель для предсказания, относятся ли 2 образца к одному и тому же?
00
Вопрос или проблема У меня есть две базы данных с около 60,000 примеров каждая. Обе имеют одинаковые характеристики (одинаковые названия столбцов), которые представляют собой определенные вещи с текстом или категориями (превращенными в числа).
Data Science
Текстовая карта – Названия лекарств
00
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.
Data Science
Извлечение структурированных данных из полуструктурированных данных
00
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Как использовать классификацию текстов, если источником обучения являются текстовые файлы в категоризованных папках?
00
Вопрос или проблема У меня есть 200 уникальных файлов *.txt для каждой папки: Каждый файл содержит первоначальный текст иска, разделенный по юридическим областям (папкам) общественной защиты. Я хотел бы создать обучающие данные для прогнозирования новых
Data Science
Как улучшить точность при классификации коротких текстов с ограниченным контекстом
00
Вопрос или проблема Мой случай использования заключается в классификации названий должностей по функциональным областям. Я дообучил all-mpnet-base-v2 с помощью Setfit, предоставив около 10 примеров для каждого класса (функциональные области).
Data Science
Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.
00
Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать
Data Science
Как использовать scikit-learn для извлечения признаков из текста, если у меня есть только положительные и неразмеченные данные?
00
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
TF Keras Обработка текста – Модель классификации
00
Вопрос или проблема Я пытаюсь составить скрипт, который классифицирует комментарии на адекватные и неадекватные. Я ранее задавал вопрос здесь с полным кодом, но думаю, что изолировал проблему в настройке модели, поэтому я его удалил и надеюсь, что это
Data Science
Смешение классов в нейронных сетях (обучение против тестирования)
00
Вопрос или проблема Я новичок в глубоком обучении и запутался из-за того, что нейронная сеть обучается на определенных классах и тестируется на других. Допустим, я хочу создать сверточную нейронную сеть, которая будет определять авторство текста (идентификация
Data Science
Как сопоставить корпус со строкой слов, используя матрицу TF-IDF?
00
Вопрос или проблема Я пытаюсь сопоставить наборы слов с веб-сайтом, который имеет маркированные пункты, текст которых наиболее схож с ними. Я подумал, что можно сделать это следующим образом: собрать все документы из каждого маркированного пункта в один