text-classification
Data Science
Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)
Data Science
Вопрос или проблема У меня есть проблема классификации, которую кажется, часто встречают, но я не могу найти название этой задачи и лучший способ моделирования этой проблемы. Допустим, у меня есть серия событий, которые происходят последовательно во времени.
Data Science
Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение
Data Science
Вопрос или проблема Я начал небольшой проект, в котором пытаюсь дообучить модель для классификации с нулевым обучением на собственном наборе данных. Я думал использовать подход NLI, создавая противоречащие и подтверждающие утверждения для каждой пары
Data Science
Вопрос или проблема Я хочу обучить бинарный классификатор на текстах — что-то вроде анализа настроений, но мои входные векторы будут представлять собой серию ответов от пользователя, разделенных некоторым разделяющим символом.
Data Science
Вопрос или проблема Я работаю над проектом мульти-классовой текстовой классификации. Моя цель проста: с учетом “баг”, я хочу предсказать, к какому конечному владельцу группы он будет отнесен. Мне удалось собрать ~15000 образцов багов с релевантным статусом (т.
Data Science
Вопрос или проблема Я ищу решение проблемы мультиклассовой классификации с длинными последовательностями текста, где в некоторых строках содержится тысячи токенов. Некоторые современные методы, такие как BERT, имеют ограничение на количество токенов
Data Science
Вопрос или проблема Я использую наивный байесовский классификатор для классификации датасета 20 новостных групп. Моя точность на обучающем наборе составляет 97, а на тестовом наборе – 89. Моя модель переобучена? Если да, что я могу сделать, чтобы
Data Science
Вопрос или проблема У меня есть корпус из 23000 документов, которые нужно классифицировать на 5 различных категорий. У меня нет доступных помеченных данных, только текстовые документы свободной формы и ярлыки (да, ярлыки из одного слова, не темы).
Data Science
Вопрос или проблема Я работал над задачей с контролируемым обучением машин, где в наборе данных есть числовые (цена), категориальные (категория) и текстовые данные (описание) в качестве признаков. Признак описания имеет около 30% пропущенных значений.
Data Science
Вопрос или проблема Я хотел бы протестировать экспериментальный алгоритм для классификации строк. Более точно, набор данных должен быть разделен на множество GOOD хороших строк и множество BAD плохих строк. Алгоритм должен обучить модель, согласующуюся
Data Science
Вопрос или проблема У меня есть датафрейм, содержащий столбец типов профилей, который выглядит следующим образом: 0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript
Data Science
Вопрос или проблема Я собрал много данных, которые хотел бы проанализировать и классифицировать. К сожалению, они не имеют меток, поэтому мне нужно будет сделать это вручную. Набор данных состоит из текстов на итальянском языке, и я не нашел много моделей
Data Science
Вопрос или проблема Я пытаюсь решить задачу бинарной классификации. Мои метки — абьюзивные (1) и не абьюзивные (0). Мой набор данных был несбалансирован (больше 1, чем 0), и я использовал увеличенное количество выборок для меньшинства (т.
Data Science
Вопрос или проблема Я новичок в области науки о данных и методов машинного обучения. Мне нужно построить модель, которая позволит мне классифицировать тексты на основе анализа настроений. Прямо сейчас у меня есть только текст, и они не имеют ни класса
Data Science
Вопрос или проблема У меня есть набор данных онлайн-отзывов (X) с соответствующими темами (тема1 до тема5), и каждая тема может иметь 5 значений (подробная оценка настроений от 1 до 5). Итак, у меня есть один X и 5 Y колонок. Я хотел бы узнать, как я
Data Science
Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.
Data Science
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
Вопрос или проблема Я работаю с системой классификации текста. Здесь мой набор данных содержит около 30 намерений. Но проблема в том, что у меня нет системы, разработанной для обработки входных данных, которые не попадают ни под одно из намерений.
Data Science
Вопрос или проблема Я работаю над проектом – «анализ настроений в твитах». Есть 5 различных настроений – крайнеNegative, негативное, нейтральное, положительное и крайне положительное. Так что это, в основном, задача обработки естественного