text-mining
Data Science
Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).
Data Science
Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)
Data Science
Вопрос или проблема Я пытаюсь создать аналогичный текст на основе категории или сгенерировать текст, комбинируя схожие тексты в новый текст. Я проверял несколько задач в области обработки естественного языка, таких как генерация вопросов, но они не подходят для моей задачи.
Data Science
Вопрос или проблема В окне “Предобработка текста” Orange, в разделе Фильтрация, стоп-слова предоставлены в списке языков. Мы также можем загрузить собственный список стоп-слов. Возможно ли также загрузить собственный список стоп-слов на языке
Data Science
Вопрос или проблема Я хорошо знаком с методом ассоциативных правил, но мне нужно использовать его для связи МЕЖДУ двумя корзинами покупок, а не для поиска поддержки ВНУТРИ одной корзины покупок. Представьте, что клиенты приходят в Магазин A и покупают
Data Science
Вопрос или проблема Я хочу начать проект по машинному обучению в своей компании, и для аналитиков затрат большая проблема заключается в классификации продуктов, которые покупатели заказывают для обслуживания, инструментов, сырья и тому подобного, так
Data Science
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Data Science
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.
Data Science
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Вопрос или проблема У меня есть набор библиометрических данных (ссылок). Я хочу извлечь имена авторов, названия и названия конференции/журнала из них. Поскольку стиль ссылок, используемый в разных статьях, варьируется, меня интересует, существуют ли уже
Data Science
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “
Data Science
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Вопрос или проблема Так что в моей голове у меня есть идея о том, как должна выглядеть эта архитектура, или, по крайней мере, как она должна себя вести, но мне трудно ее реализовать. Позвольте мне описать проблему, и если кто-то имеет идеи о том, как
Data Science
Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать
Data Science
Вопрос или проблема У меня есть текст твитов в файле Excel: каждая строка — это один твит. Как мне посмотреть этот корпус в Orange3? Я не понимаю, почему я не могу просто увидеть этот корпус. Как видно на изображении ниже, канал красный, и в Просмотре