text-mining - ответы на вопросы

Data Science

Мнения о практике удаления стоп-слов перед использованием VADER

00

Вопрос или проблема Я знаю, что по этой теме уже есть вопрос, но он не полностью решает мои проблемы. В настоящее время я пишу магистерскую диссертацию и буду использовать VADER для анализа настроений (пакет vader от Katherine Roehrick в RStudio).

Data Science

Название алгоритма, который отображает строковый столбец в численный столбец на основе агрегации с другим численным столбцом, аналогично TF-IDF.

00

Вопрос или проблема Вопрос Я не очень хорошо знаком с названиями распространенных алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и поэтому должно иметь название – хочу ссылаться на его правильное имя, чтобы правильно документировать его в кодовой базе.

Data Science

Я ищу название алгоритма, который я реализовал, похожего на TF-IDF.

00

Вопрос или проблема Вопрос Я не очень знаком с названиями общепринятых алгоритмов в Data Science, и мне кажется, что это то, что часто используется, и, следовательно, должно иметь название – хочу обратиться к его правильному названию ради правильной

Data Science

Какой лучший способ использовать word2vec для оценки сходства двуязычного текста?

00

Вопрос или проблема У меня возникла проблема, когда мне нужно вычислять сходства между двуязычными (английскими и французскими) текстами. “База данных” выглядит так: +-+-+-+ | |F|E| +-+-+-+ |1|X|X| +-+-+-+ |2| |X| +-+-+-+ |3|X| | +-+-+-+ |4|X|

Data Science

Анализ текстовых данных в обзоре продукта Amazon с использованием R. Мне не удалось извлечь отзыв о конкретном продукте.

00

Вопрос или проблема Текстовый майнинг обзоров продуктов Amazon с использованием программы R. Я не смог извлечь отзывы конкретного продукта (например, если у iPhone 11 есть 6k отзывов, мне нужно извлечь все из них). Я получаю только один столбец с меткой x.

Data Science

Отношение к майнингу текста и подготовке токенов, неуместным словам, низкая точность.

00

Вопрос или проблема Для целей довольно большого проекта я провожу текстовый анализ некоторых документов. Мои шаги довольно стандартны: Приведение всего к нижнему регистру Токенизация Стоп-лист и стоп-слова Лемматизация Стемминг Некоторые другие шаги

Data Science

Вывод из текстовых данных без метки или цели.

00

Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?

Data Science

Классифицируйте документы, используя набор известных словарей.

00

Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск

Data Science

Оценка эмоционального напряжения в предложениях

00

Вопрос или проблема Я новичок в обработке естественного языка, и моя цель — найти способ оценивать предложения на основе их эмоционального напряжения. Более конкретно, я хотел бы знать, в какой степени предложение передает желание, ненависть или страх.

Data Science

Как представить документ в тестовых данных с помощью матрицы документов и терминов, созданной на основе обучающего набора?

00

Вопрос или проблема Я создаю классификатор документов, используя векторное представление каждого документа в обучающем наборе (т.е. строку в матрице документов-терминов). Теперь мне нужно протестировать модель на тестовых данных.

Data Science

Извлечение разделов из документа на основе списка ключевых слов – Python

00

Вопрос или проблема Я новичок в обработке естественного языка и хотел бы спросить, как я могу извлечь предложения из текста на основе ключевых слов, которые у меня есть, используя Python. Я создал список ключевых слов, которые будут использоваться для

Data Science

Определите самые важные документы для контролируемого обучения.

00

Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает

Data Science

Используя относительные или абсолютные частоты для оценки различий между группами в текстах

00

Вопрос или проблема Моя цель заключается в том, чтобы оценить различия в том, как пять политических партий используют моральные слова в своих твитах и речах. С этой целью я использую словарь, который применяю к каждому тексту твита / аудиотранскрипции

Data Science

Корпус компьютерных наук для обучения языковой модели

00

Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?

Data Science

Примените Labeled LDA к большим данным

00

Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).

Data Science

Анализ настроений новостных заголовков

00

Вопрос или проблема Я пытаюсь провести анализ настроений новостных заголовков о конкретной теме, упомянутой в них. Сначала я использовал библиотеку TextBlob для анализа настроений, чтобы сгенерировать оценку полярности. Но оценка полярности, генерируемая

Data Science

Классификация типов переменных в списке переменных

00

Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.

Data Science

Предложение по поводу лучшего способа организации данных для генерации частых наборов предметов?

00

Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех

Data Science

Как определить признаки, из-за которых модель неправильно классифицирует в текстовой классификации.

00

Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.

Data Science

Как рассчитать лексическую связность и семантическую информативность для заданного набора данных?

01

Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)