lda - ответы на вопросы

Data Science

Как построить матрицу документы-темы, используя матрицу слова-темы и матрицу темы-слова, рассчитанные с помощью латентного размещения Дирихле?

00

Вопрос или проблема Как построить матрицу «документ-тема», используя матрицы «слово-тема» и «тема-слово», рассчитанные с помощью латентного распределения Дирихле? Я нигде не могу найти информацию об этом, даже у автора LDA, М.

Data Science

Моделирование тем на основе всего лишь 24 документов дает одну и ту же “тему” для любого K.

00

Вопрос или проблема Описание: У меня есть 24 документа, каждый из которых содержит около 2,5K токенов. Это публичные выступления. Мой процесс предварительной обработки текста является общим, включает в себя удаление знаков препинания, расширение английских

Data Science

Как сопоставить тему с документом после завершения тематического моделирования с помощью LDA

00

Вопрос или проблема Есть ли способ сопоставить сгенерированную тему из LDA со списком документов и определить, к какой теме она принадлежит? Меня интересует кластеризация документов с использованием обучения без учителя и их разделение на соответствующие кластеры.

Data Science

Примените Labeled LDA к большим данным

00

Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).

Data Science

Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)

00

Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей

Data Science

Как определить сходство текста на основе обучающих данных?

00

Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому

Data Science

Выравнивание тем / моделирование тем

00

Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды

Data Science

Работа с наборами данных высокой размерности

00

Вопрос или проблема У меня есть данные размерности (25000, 100, 500), т.е. 25000 строк, каждая из которых состоит из двумерной матрицы 100 X 500. В данный момент я применяю только CNN для целей классификации. Есть ли другой способ, с помощью которого

Data Science

Как выбрать порог для Phrases в gensim при генерации биграмм?

00

Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.

Data Science

Выбор количества тем (кластеров) в текстовых данных

00

Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов

Data Science

Реализация LDA (Скрытое распределение Дирихле) для задач классификации

00

Вопрос или проблема До сих пор я использовал LDA только для моделирования тем. Мне хотелось бы узнать, какая самая простая реализация алгоритма LDA для задач классификации. Вы можете использовать LDA на ваших обучающих данных, чтобы построить их темпредставление

Data Science

Моделирование тем с множеством синонимов – как извлечь ‘скрытые темы’

00

Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные