Data Science
Результаты иерархического процесса Дирихле
00
Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.
Data Science
Как использовать нечеткую тематическую модель в качестве входных данных для классификационной модели
00
Вопрос или проблема У меня есть нечеткая кластеризация для тематического моделирования, и я получил это . Всего существует 50 тем [0-49], и каждая тема состоит из 30 слов с вероятностным мультипликативным фактором. Теперь как мне сделать это входными
Data Science
Классифицируйте документы, используя набор известных словарей.
00
Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск
Data Science
Моделирование тем на основе всего лишь 24 документов дает одну и ту же “тему” для любого K.
00
Вопрос или проблема Описание: У меня есть 24 документа, каждый из которых содержит около 2,5K токенов. Это публичные выступления. Мой процесс предварительной обработки текста является общим, включает в себя удаление знаков препинания, расширение английских
Data Science
Как сопоставить тему с документом после завершения тематического моделирования с помощью LDA
00
Вопрос или проблема Есть ли способ сопоставить сгенерированную тему из LDA со списком документов и определить, к какой теме она принадлежит? Меня интересует кластеризация документов с использованием обучения без учителя и их разделение на соответствующие кластеры.
Data Science
Как сравнить темы, сгенерированные с помощью тематического моделирования из разных наборов данных?
00
Вопрос или проблема У меня есть два набора данных с похожей темой. Предположим, Набор данных A и Набор данных B. Используя модель top2vec (https://github.com/ddangelov/Top2Vec) (https://arxiv.org/abs/2008.09470) для каждого набора данных, я получил определенное количество тем.
Data Science
Моделирование тем на длинных документах: сначала кластеризация внутри документа
00
Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.
Data Science
Возможно ли использовать BERTopic на данных, не основанных на предложениях?
00
Вопрос или проблема Я хотел бы создать тематическую модель содержимого поля “Заметки” в CRM. Таких записей несколько сотен. Чаще всего это не целые предложения, а просто комбинации слов (например, “клиент с конференции 2024 года в Цюрихе”
Data Science
Диахронное тематическое моделирование с меняющимся набором тем
00
Вопрос или проблема В коротком summary вопрос состоит в следующем: как я могу построить регулярно обновляемую цепь тем, которая также покажет, как темы возникают и исчезают со временем? Чтобы быть более точным: – У меня есть данные с временными
Data Science
Обновление модели LDA генизма с новыми документами и темами
00
Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.
Data Science
Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)
00
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Измерение показателя согласованности для моделей Top2Vec
00
Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Тематическое моделирование для нетекстовых данных?
00
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Моделирование тем с множеством синонимов – как извлечь ‘скрытые темы’
00
Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные
Data Science
Визуализация BERTopic
00
Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from