nltk - ответы на вопросы

Data Science

00

Вопрос или проблема Я кластеризовал векторы по косинусному расстоянию, используя кластеризатор nltk. Если я правильно понимаю, ось Y для метода “локтя” в евклидовой метрике будет суммой каждого расстояния (в квадрате) между центроидом кластера

Data Science

Обнаружение ссылок и цитат в документах

00

Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –

Data Science

Взвешивание слов в анализе сентиментов на основе лексикона

00

Вопрос или проблема Я пытаюсь провести анализ сентимента на основе лексикона по своим данным, где я вычисляю оценку сентимента следующим образом: $$ Оценка = \frac{\sum_{i}{word_i}}{\mid words \mid} $$ Таким образом, в зависимости от оценки слово будет

Data Science

найти биграмы в pandas

00

Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.

Data Science

Как найти возможные подлежащие для данного глагола в области повседневных объектов

00

Вопрос или проблема Я ищу инструменты (возможно, в NLTK) или статьи, которые говорят о следующем: например. Ввод: Vase(Subject1) put(verb) Ответ, который я ищу: flower, water Существует ли инструмент, который может выдать субъекты (объекты), которые могут

Data Science

обучить NER с использованием NLTK с пользовательскими корпусами (неанглийскими) необходимо использовать StanfordNER?

00

Вопрос или проблема Я искал информацию о настройке NER корпусов для обучения модели с использованием библиотеки NLTK из Python, но все ответы ссылаются на глава 7 книги NLTK и, честно говоря, это меня путает, как правильно обучить корпус с правильным

Data Science

Что такое метод сглаживания “интерполированное абсолютное дисконтирование”?

00

Вопрос или проблема Меня просят реализовать “Интерполированное Абсолютное Скидка” для биграммной языковой модели для текста. Во-первых, я не знаю, что это такое. Я предполагаю, что это интерполяция между разными n-граммами (униграммами, биграммами и т.

Data Science

Как лучше всего сопоставить похожие n-граммы?

00

Вопрос или проблема Я пытаюсь сопоставить похожие n-граммы, используя Wordnet и синсеты. Например: старший брат и старший брат или сестра должны соответствовать одной сущности. Какой был бы лучший способ реализовать это? Я думал об этом и пока пришел

Data Science

Не удается устранить ошибку типа с использованием Tokenizer.tokenize из NLTK

00

Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’