nltk
Data Science
Вопрос или проблема Я кластеризовал векторы по косинусному расстоянию, используя кластеризатор nltk. Если я правильно понимаю, ось Y для метода “локтя” в евклидовой метрике будет суммой каждого расстояния (в квадрате) между центроидом кластера
Data Science
Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –
Data Science
Вопрос или проблема Я пытаюсь провести анализ сентимента на основе лексикона по своим данным, где я вычисляю оценку сентимента следующим образом: $$ Оценка = \frac{\sum_{i}{word_i}}{\mid words \mid} $$ Таким образом, в зависимости от оценки слово будет
Data Science
Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.
Data Science
Вопрос или проблема Я ищу инструменты (возможно, в NLTK) или статьи, которые говорят о следующем: например. Ввод: Vase(Subject1) put(verb) Ответ, который я ищу: flower, water Существует ли инструмент, который может выдать субъекты (объекты), которые могут
Data Science
Вопрос или проблема Я искал информацию о настройке NER корпусов для обучения модели с использованием библиотеки NLTK из Python, но все ответы ссылаются на глава 7 книги NLTK и, честно говоря, это меня путает, как правильно обучить корпус с правильным
Data Science
Вопрос или проблема Меня просят реализовать “Интерполированное Абсолютное Скидка” для биграммной языковой модели для текста. Во-первых, я не знаю, что это такое. Я предполагаю, что это интерполяция между разными n-граммами (униграммами, биграммами и т.
Data Science
Вопрос или проблема Я пытаюсь сопоставить похожие n-граммы, используя Wordnet и синсеты. Например: старший брат и старший брат или сестра должны соответствовать одной сущности. Какой был бы лучший способ реализовать это? Я думал об этом и пока пришел
Data Science
Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’