topic-model
Data Science
Вопрос или проблема Я подумываю использовать иерархический процесс Дирихле для моделирования набора данных патентов. Я видел, что HDP использует базовое распределение и предполагает, что каждая тема исходит из этого базового распределения.
Data Science
Как использовать нечеткую тематическую модель в качестве входных данных для классификационной модели
Вопрос или проблема У меня есть нечеткая кластеризация для тематического моделирования, и я получил это . Всего существует 50 тем [0-49], и каждая тема состоит из 30 слов с вероятностным мультипликативным фактором. Теперь как мне сделать это входными
Data Science
Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск
Data Science
Вопрос или проблема Описание: У меня есть 24 документа, каждый из которых содержит около 2,5K токенов. Это публичные выступления. Мой процесс предварительной обработки текста является общим, включает в себя удаление знаков препинания, расширение английских
Data Science
Вопрос или проблема Есть ли способ сопоставить сгенерированную тему из LDA со списком документов и определить, к какой теме она принадлежит? Меня интересует кластеризация документов с использованием обучения без учителя и их разделение на соответствующие кластеры.
Data Science
Вопрос или проблема У меня есть два набора данных с похожей темой. Предположим, Набор данных A и Набор данных B. Используя модель top2vec (https://github.com/ddangelov/Top2Vec) (https://arxiv.org/abs/2008.09470) для каждого набора данных, я получил определенное количество тем.
Data Science
Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.
Data Science
Вопрос или проблема Я хотел бы создать тематическую модель содержимого поля “Заметки” в CRM. Таких записей несколько сотен. Чаще всего это не целые предложения, а просто комбинации слов (например, “клиент с конференции 2024 года в Цюрихе”
Data Science
Вопрос или проблема В коротком summary вопрос состоит в следующем: как я могу построить регулярно обновляемую цепь тем, которая также покажет, как темы возникают и исчезают со временем? Чтобы быть более точным: – У меня есть данные с временными
Data Science
Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.
Data Science
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.
Data Science
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные
Data Science
Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from