Data Science
Диахронное тематическое моделирование с меняющимся набором тем
00
Вопрос или проблема В коротком summary вопрос состоит в следующем: как я могу построить регулярно обновляемую цепь тем, которая также покажет, как темы возникают и исчезают со временем? Чтобы быть более точным: – У меня есть данные с временными
Data Science
Обновление модели LDA генизма с новыми документами и темами
00
Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.
Data Science
Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)
00
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Измерение показателя согласованности для моделей Top2Vec
00
Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Тематическое моделирование для нетекстовых данных?
00
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Моделирование тем с множеством синонимов – как извлечь ‘скрытые темы’
00
Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные
Data Science
Визуализация BERTopic
00
Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from