text-classification - ответы на вопросы

Data Science

Классификация с использованием текстов в качестве признаков

00

Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)

Data Science

Классификация, когда классификация предыдущих элементов имеет значение.

00

Вопрос или проблема У меня есть проблема классификации, которую кажется, часто встречают, но я не могу найти название этой задачи и лучший способ моделирования этой проблемы. Допустим, у меня есть серия событий, которые происходят последовательно во времени.

Data Science

Векторизатор текста, который захватывает смещение признаков в тексте.

00

Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение

Data Science

Настроить модель классификации без примеров для многолейблового обозначения

00

Вопрос или проблема Я начал небольшой проект, в котором пытаюсь дообучить модель для классификации с нулевым обучением на собственном наборе данных. Я думал использовать подход NLI, создавая противоречащие и подтверждающие утверждения для каждой пары

Data Science

Обучение модели с рядом текстовых ответов в качестве входных данных.

00

Вопрос или проблема Я хочу обучить бинарный классификатор на текстах — что-то вроде анализа настроений, но мои входные векторы будут представлять собой серию ответов от пользователя, разделенных некоторым разделяющим символом.

Data Science

sklearn текстовый анализ – обработка пропущенных значений

00

Вопрос или проблема Я работаю над проектом мульти-классовой текстовой классификации. Моя цель проста: с учетом “баг”, я хочу предсказать, к какому конечному владельцу группы он будет отнесен. Мне удалось собрать ~15000 образцов багов с релевантным статусом (т.

Data Science

Какие существуют методы обработки мультиметочной классификации для длинных последовательностей текста?

00

Вопрос или проблема Я ищу решение проблемы мультиклассовой классификации с длинными последовательностями текста, где в некоторых строках содержится тысячи токенов. Некоторые современные методы, такие как BERT, имеют ограничение на количество токенов

Data Science

Моя модель является переобученной?

00

Вопрос или проблема Я использую наивный байесовский классификатор для классификации датасета 20 новостных групп. Моя точность на обучающем наборе составляет 97, а на тестовом наборе – 89. Моя модель переобучена? Если да, что я могу сделать, чтобы

Data Science

Возможно ли классифицировать документы корпуса с помощью меток?

00

Вопрос или проблема У меня есть корпус из 23000 документов, которые нужно классифицировать на 5 различных категорий. У меня нет доступных помеченных данных, только текстовые документы свободной формы и ярлыки (да, ярлыки из одного слова, не темы).

Data Science

Обработка пропущенных значений в колонке с текстовыми данными

00

Вопрос или проблема Я работал над задачей с контролируемым обучением машин, где в наборе данных есть числовые (цена), категориальные (категория) и текстовые данные (описание) в качестве признаков. Признак описания имеет около 30% пропущенных значений.

Data Science

Наборы данных для классификации строк

00

Вопрос или проблема Я хотел бы протестировать экспериментальный алгоритм для классификации строк. Более точно, набор данных должен быть разделен на множество GOOD хороших строк и множество BAD плохих строк. Алгоритм должен обучить модель, согласующуюся

Data Science

Группировка строк профилей с одинаковыми словами, но в различном порядке.

00

Вопрос или проблема У меня есть датафрейм, содержащий столбец типов профилей, который выглядит следующим образом: 0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript

Data Science

Классификация текстов и предсказательная модель

00

Вопрос или проблема Я собрал много данных, которые хотел бы проанализировать и классифицировать. К сожалению, они не имеют меток, поэтому мне нужно будет сделать это вручную. Набор данных состоит из текстов на итальянском языке, и я не нашел много моделей

Data Science

Классификация текста неверно классифицирует?

00

Вопрос или проблема Я пытаюсь решить задачу бинарной классификации. Мои метки — абьюзивные (1) и не абьюзивные (0). Мой набор данных был несбалансирован (больше 1, чем 0), и я использовал увеличенное количество выборок для меньшинства (т.

Data Science

Создание модели классификации текста с нуля

00

Вопрос или проблема Я новичок в области науки о данных и методов машинного обучения. Мне нужно построить модель, которая позволит мне классифицировать тексты на основе анализа настроений. Прямо сейчас у меня есть только текст, и они не имеют ни класса

Data Science

Анализ настроений на основе аспектов с использованием Bert и Pytorch

00

Вопрос или проблема У меня есть набор данных онлайн-отзывов (X) с соответствующими темами (тема1 до тема5), и каждая тема может иметь 5 значений (подробная оценка настроений от 1 до 5). Итак, у меня есть один X и 5 Y колонок. Я хотел бы узнать, как я

Data Science

Обновление модели LDA генизма с новыми документами и темами

00

Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.

Data Science

Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?

00

Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти

Data Science

Какой является наилучшей техникой извлечения признаков для обнаружения новизны / аномалий в текстовом домене?

00

Вопрос или проблема Я работаю с системой классификации текста. Здесь мой набор данных содержит около 30 намерений. Но проблема в том, что у меня нет системы, разработанной для обработки входных данных, которые не попадают ни под одно из намерений.

Data Science

Какой алгоритм машинного обучения лучше всего работает с текстовыми данными и почему? Также какие метрики используются для оценки производительности модели?

00

Вопрос или проблема Я работаю над проектом – «анализ настроений в твитах». Есть 5 различных настроений – крайнеNegative, негативное, нейтральное, положительное и крайне положительное. Так что это, в основном, задача обработки естественного