Data Science
Классификация текстов и предсказательная модель
00
Вопрос или проблема Я собрал много данных, которые хотел бы проанализировать и классифицировать. К сожалению, они не имеют меток, поэтому мне нужно будет сделать это вручную. Набор данных состоит из текстов на итальянском языке, и я не нашел много моделей
Data Science
Классификация текста неверно классифицирует?
00
Вопрос или проблема Я пытаюсь решить задачу бинарной классификации. Мои метки — абьюзивные (1) и не абьюзивные (0). Мой набор данных был несбалансирован (больше 1, чем 0), и я использовал увеличенное количество выборок для меньшинства (т.
Data Science
Создание модели классификации текста с нуля
00
Вопрос или проблема Я новичок в области науки о данных и методов машинного обучения. Мне нужно построить модель, которая позволит мне классифицировать тексты на основе анализа настроений. Прямо сейчас у меня есть только текст, и они не имеют ни класса
Data Science
Анализ настроений на основе аспектов с использованием Bert и Pytorch
00
Вопрос или проблема У меня есть набор данных онлайн-отзывов (X) с соответствующими темами (тема1 до тема5), и каждая тема может иметь 5 значений (подробная оценка настроений от 1 до 5). Итак, у меня есть один X и 5 Y колонок. Я хотел бы узнать, как я
Data Science
Обновление модели LDA генизма с новыми документами и темами
00
Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.
Data Science
Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?
00
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
Какой является наилучшей техникой извлечения признаков для обнаружения новизны / аномалий в текстовом домене?
00
Вопрос или проблема Я работаю с системой классификации текста. Здесь мой набор данных содержит около 30 намерений. Но проблема в том, что у меня нет системы, разработанной для обработки входных данных, которые не попадают ни под одно из намерений.
Data Science
Какой алгоритм машинного обучения лучше всего работает с текстовыми данными и почему? Также какие метрики используются для оценки производительности модели?
00
Вопрос или проблема Я работаю над проектом – «анализ настроений в твитах». Есть 5 различных настроений – крайнеNegative, негативное, нейтральное, положительное и крайне положительное. Так что это, в основном, задача обработки естественного
Data Science
Анализ классификации текста на основе сходства
00
Вопрос или проблема Я прочитал много литературы по классификации текстов и различным подходам/моделям, особенно с использованием языка Python, но, вероятно, я все еще не понимаю, как построить модели и какие шаги для этого нужны.
Data Science
Копии постов LinkedIn – инструменты анализа текста
00
Вопрос или проблема Я хочу использовать данные своей работы – 1000+ различных копий с полной мета-информацией из LI. У нас есть платформа SaaS для амбассадоров бренда, и мы предоставляем им инструмент для создания этих копий и планирования их.
Data Science
Как использовать онтологии для классификации текста?
00
Вопрос или проблема Я новичок в машинном обучении и хочу классифицировать предложения, используя онтологии (таксономии/графы знаний) и методы контролируемого обучения (у меня есть аннотированный обучающий набор данных). Мой вопрос: как использовать онтологию для этой задачи?
Data Science
Как улучшить свой F1-оценку в анализе историй
00
Вопрос или проблема Мне задали задание построить модель, которая идентифицирует пол автора текста. Оценка задания будет зависеть от f1_score моей модели, чтобы получить максимальные баллы, он должен быть как минимум 0.7. Мне предоставили 360 историй и
Data Science
Как определить сходство текста на основе обучающих данных?
00
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Как определить признаки, из-за которых модель неправильно классифицирует в текстовой классификации.
00
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Как уменьшить/увеличить выборку текста?
00
Вопрос или проблема У меня есть набор данных из 5566 образцов – один столбец содержит текст описания рецепта, а другой – это налоговый класс. Я хочу создать классификатор, который будет классифицировать рецепты, используя только машинное обучение.
Data Science
Как каталогизировать нелабелированные данные рекламных электронных писем
00
Вопрос или проблема У меня есть неразмеченные данные рекламных писем. Я хочу категоризировать эти письма по темам, таким как мода, здоровье и благополучие, спорт, медиа, развлечения и т. д. Можете ли вы подсказать какой-либо эффективный метод или предобученную
Data Science
Оптимальная настройка ввода для классификации текста на уровне символов с использованием RNN
00
Вопрос или проблема Я хочу классифицировать текстовые образцы длиной 500 символов на предмет того, похожи ли они на естественный язык, с помощью рекуррентной нейронной сети на уровне символов. Я не уверен, как лучше всего подавать входные данные в РНН.
Data Science
Классификация коротких строк текста с дополнительным контекстом
00
Вопрос или проблема У меня есть список коротких строк, каждая из которых определяет город. Орфографические ошибки очень распространены. Пример ниже показывает некоторые из этих коротких строк и правильный город, которому они должны соответствовать.
Data Science
Как обучить модель для предсказания, относятся ли 2 образца к одному и тому же?
00
Вопрос или проблема У меня есть две базы данных с около 60,000 примеров каждая. Обе имеют одинаковые характеристики (одинаковые названия столбцов), которые представляют собой определенные вещи с текстом или категориями (превращенными в числа).
Data Science
Текстовая карта – Названия лекарств
00
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.