topic-model - ответы на вопросы

Data Science

Результаты иерархического процесса Дирихле

00

Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.

Data Science

Как использовать нечеткую тематическую модель в качестве входных данных для классификационной модели

00

Вопрос или проблема У меня есть нечеткая кластеризация для тематического моделирования, и я получил это . Всего существует 50 тем [0-49], и каждая тема состоит из 30 слов с вероятностным мультипликативным фактором. Теперь как мне сделать это входными

Data Science

Классифицируйте документы, используя набор известных словарей.

00

Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск

Data Science

Моделирование тем на основе всего лишь 24 документов дает одну и ту же “тему” для любого K.

00

Вопрос или проблема Описание: У меня есть 24 документа, каждый из которых содержит около 2,5K токенов. Это публичные выступления. Мой процесс предварительной обработки текста является общим, включает в себя удаление знаков препинания, расширение английских

Data Science

Как сопоставить тему с документом после завершения тематического моделирования с помощью LDA

00

Вопрос или проблема Есть ли способ сопоставить сгенерированную тему из LDA со списком документов и определить, к какой теме она принадлежит? Меня интересует кластеризация документов с использованием обучения без учителя и их разделение на соответствующие кластеры.

Data Science

Как сравнить темы, сгенерированные с помощью тематического моделирования из разных наборов данных?

00

Вопрос или проблема У меня есть два набора данных с похожей темой. Предположим, Набор данных A и Набор данных B. Используя модель top2vec (https://github.com/ddangelov/Top2Vec) (https://arxiv.org/abs/2008.09470) для каждого набора данных, я получил определенное количество тем.

Data Science

Моделирование тем на длинных документах: сначала кластеризация внутри документа

00

Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.

Data Science

Возможно ли использовать BERTopic на данных, не основанных на предложениях?

00

Вопрос или проблема Я хотел бы создать тематическую модель содержимого поля “Заметки” в CRM. Таких записей несколько сотен. Чаще всего это не целые предложения, а просто комбинации слов (например, “клиент с конференции 2024 года в Цюрихе”

Data Science

Диахронное тематическое моделирование с меняющимся набором тем

00

Вопрос или проблема В коротком summary вопрос состоит в следующем: как я могу построить регулярно обновляемую цепь тем, которая также покажет, как темы возникают и исчезают со временем? Чтобы быть более точным: – У меня есть данные с временными

Data Science

Обновление модели LDA генизма с новыми документами и темами

00

Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.

Data Science

Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)

00

Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей

Data Science

Измерение показателя согласованности для моделей Top2Vec

00

Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.

Data Science

Выравнивание тем / моделирование тем

00

Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды

Data Science

Тематическое моделирование для нетекстовых данных?

00

Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.

Data Science

Выбор количества тем (кластеров) в текстовых данных

00

Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов

Data Science

Моделирование тем с множеством синонимов – как извлечь ‘скрытые темы’

00

Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные

Data Science

Визуализация BERTopic

00

Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from