text-mining
Data Science
Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?
Data Science
Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск
Data Science
Вопрос или проблема Я новичок в обработке естественного языка, и моя цель — найти способ оценивать предложения на основе их эмоционального напряжения. Более конкретно, я хотел бы знать, в какой степени предложение передает желание, ненависть или страх.
Data Science
Вопрос или проблема Я создаю классификатор документов, используя векторное представление каждого документа в обучающем наборе (т.е. строку в матрице документов-терминов). Теперь мне нужно протестировать модель на тестовых данных.
Data Science
Вопрос или проблема Я новичок в обработке естественного языка и хотел бы спросить, как я могу извлечь предложения из текста на основе ключевых слов, которые у меня есть, используя Python. Я создал список ключевых слов, которые будут использоваться для
Data Science
Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает
Data Science
Вопрос или проблема Моя цель заключается в том, чтобы оценить различия в том, как пять политических партий используют моральные слова в своих твитах и речах. С этой целью я использую словарь, который применяю к каждому тексту твита / аудиотранскрипции
Data Science
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).
Data Science
Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)
Data Science
Вопрос или проблема Я пытаюсь создать аналогичный текст на основе категории или сгенерировать текст, комбинируя схожие тексты в новый текст. Я проверял несколько задач в области обработки естественного языка, таких как генерация вопросов, но они не подходят для моей задачи.
Data Science
Вопрос или проблема В окне “Предобработка текста” Orange, в разделе Фильтрация, стоп-слова предоставлены в списке языков. Мы также можем загрузить собственный список стоп-слов. Возможно ли также загрузить собственный список стоп-слов на языке
Data Science
Вопрос или проблема Я хорошо знаком с методом ассоциативных правил, но мне нужно использовать его для связи МЕЖДУ двумя корзинами покупок, а не для поиска поддержки ВНУТРИ одной корзины покупок. Представьте, что клиенты приходят в Магазин A и покупают
Data Science
Вопрос или проблема Я хочу начать проект по машинному обучению в своей компании, и для аналитиков затрат большая проблема заключается в классификации продуктов, которые покупатели заказывают для обслуживания, инструментов, сырья и тому подобного, так
Data Science
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Data Science
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.