Data Science
Примените Labeled LDA к большим данным
00
Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).
Data Science
Анализ настроений новостных заголовков
00
Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая
Data Science
Классификация типов переменных в списке переменных
00
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Предложение по поводу лучшего способа организации данных для генерации частых наборов предметов?
00
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Как определить признаки, из-за которых модель неправильно классифицирует в текстовой классификации.
00
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Как рассчитать лексическую связность и семантическую информативность для заданного набора данных?
01
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)
Data Science
Сгенерировать аналогичный текст на основе категории или похожих текстов.
00
Вопрос или проблема Я пытаюсь создать аналогичный текст на основе категории или сгенерировать текст, комбинируя схожие тексты в новый текст. Я проверял несколько задач в области обработки естественного языка, таких как генерация вопросов, но они не подходят для моей задачи.
Data Science
Как добавить стоп-слова в язык, не указанный в фильтрации текста в Orange?
00
Вопрос или проблема В окне “Предобработка текста” Orange, в разделе Фильтрация, стоп-слова предоставлены в списке языков. Мы также можем загрузить собственный список стоп-слов. Возможно ли также загрузить собственный список стоп-слов на языке
Data Science
Анализ ассоциативных правил по двум корзинам покупок
00
Вопрос или проблема Я хорошо знаком с методом ассоциативных правил, но мне нужно использовать его для связи МЕЖДУ двумя корзинами покупок, а не для поиска поддержки ВНУТРИ одной корзины покупок. Представьте, что клиенты приходят в Магазин A и покупают
Data Science
Классификация продукции по иерархическим категориям на основе множества параметров и нестандартных описаний.
00
Вопрос или проблема Я хочу начать проект по машинному обучению в своей компании, и для аналитиков затрат большая проблема заключается в классификации продуктов, которые покупатели заказывают для обслуживания, инструментов, сырья и тому подобного, так
Data Science
Как выбрать порог для Phrases в gensim при генерации биграмм?
00
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Data Science
Текстовая карта – Названия лекарств
00
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.
Data Science
Извлечение структурированных данных из полуструктурированных данных
00
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Извлечение данных из библиометрической информации
00
Вопрос или проблема У меня есть набор библиометрических данных (ссылок). Я хочу извлечь имена авторов, названия и названия конференции/журнала из них. Поскольку стиль ссылок, используемый в разных статьях, варьируется, меня интересует, существуют ли уже
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Учитывая два крупных корпуса текста из различных источников, существует ли принятый способ выявить различия в лексике (n-граммах) между ними?
00
Вопрос или проблема Имея два больших корпуса текста из разных источников, существует ли общепринятый способ выявить различия в vocabularies (n-граммах) между ними? То есть, чтобы получить результаты, которые говорят, например, что биграмма “
Data Science
Как соотносятся текстовая аналитика, обработка естественного языка и такие задачи, как токенизация, лемматизация, удаление стоп-слов и т.д.?
00
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Рекуррентные нейронные сети над несколькими документами во времени
00
Вопрос или проблема Так что в моей голове у меня есть идея о том, как должна выглядеть эта архитектура, или, по крайней мере, как она должна себя вести, но мне трудно ее реализовать. Позвольте мне описать проблему, и если кто-то имеет идеи о том, как
Data Science
Как выявить новые описания вакансий/объявления из набора документов, имея набор уже размеченных описаний вакансий/объявлений.
00
Вопрос или проблема Предположим, у меня есть набор уже размеченных документов — некоторые из них являются описаниями вакансий (это документы интереса), а некоторые нет. Мне интересно, какой метод позволит мне построить модель, которая сможет обобщать
Data Science
Считывание корпуса из csv-файла в Orange3
00
Вопрос или проблема У меня есть текст твитов в файле Excel: каждая строка — это один твит. Как мне посмотреть этот корпус в Orange3? Я не понимаю, почему я не могу просто увидеть этот корпус. Как видно на изображении ниже, канал красный, и в Просмотре