text-mining
Data Science
Вопрос или проблема Я знаю, что по этой теме уже есть вопрос, но он не полностью решает мои проблемы. В настоящее время я пишу магистерскую диссертацию и буду использовать VADER для анализа настроений (пакет vader от Katherine Roehrick в RStudio).
Data Science
Вопрос или проблема Вопрос Я не очень хорошо знаком с названиями распространенных алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и поэтому должно иметь название – хочу ссылаться на его правильное имя, чтобы правильно документировать его в кодовой базе.
Data Science
Вопрос или проблема Вопрос Я не очень знаком с названиями общепринятых алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и, следовательно, должно иметь название – хочу обратиться к его правильному названию ради правильной
Data Science
Вопрос или проблема У меня возникла проблема, когда мне нужно вычислять сходства между двуязычными (английскими и французскими) текстами. “База данных” выглядит так: +-+-+-+ | |F|E| +-+-+-+ |1|X|X| +-+-+-+ |2| |X| +-+-+-+ |3|X| | +-+-+-+ |4|X|
Data Science
Вопрос или проблема Текстовый майнинг обзоров продуктов Amazon с использованием программы R. Я не смог извлечь отзывы конкретного продукта (например, если у iPhone 11 есть 6k отзывов, мне нужно извлечь все из них). Я получаю только один столбец с меткой x.
Data Science
Вопрос или проблема Для целей довольно большого проекта я провожу текстовый анализ некоторых документов. Мои шаги довольно стандартны: Приведение всего к нижнему регистру Токенизация Стоп-лист и стоп-слова Лемматизация Стемминг Некоторые другие шаги
Data Science
Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?
Data Science
Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск
Data Science
Вопрос или проблема Я новичок в обработке естественного языка, и моя цель — найти способ оценивать предложения на основе их эмоционального напряжения. Более конкретно, я хотел бы знать, в какой степени предложение передает желание, ненависть или страх.
Data Science
Вопрос или проблема Я создаю классификатор документов, используя векторное представление каждого документа в обучающем наборе (т.е. строку в матрице документов-терминов). Теперь мне нужно протестировать модель на тестовых данных.
Data Science
Вопрос или проблема Я новичок в обработке естественного языка и хотел бы спросить, как я могу извлечь предложения из текста на основе ключевых слов, которые у меня есть, используя Python. Я создал список ключевых слов, которые будут использоваться для
Data Science
Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает
Data Science
Вопрос или проблема Моя цель заключается в том, чтобы оценить различия в том, как пять политических партий используют моральные слова в своих твитах и речах. С этой целью я использую словарь, который применяю к каждому тексту твита / аудиотранскрипции
Data Science
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).
Data Science
Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)