Data Science
Примените Labeled LDA к большим данным
00
Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).
Data Science
Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)
00
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Как определить сходство текста на основе обучающих данных?
00
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Работа с наборами данных высокой размерности
00
Вопрос или проблема У меня есть данные размерности (25000, 100, 500), т.е. 25000 строк, каждая из которых состоит из двумерной матрицы 100 X 500. В данный момент я применяю только CNN для целей классификации. Есть ли другой способ, с помощью которого
Data Science
Как выбрать порог для Phrases в gensim при генерации биграмм?
00
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Реализация LDA (Скрытое распределение Дирихле) для задач классификации
00
Вопрос или проблема До сих пор я использовал LDA только для моделирования тем. Мне хотелось бы узнать, какая самая простая реализация алгоритма LDA для задач классификации. Вы можете использовать LDA на ваших обучающих данных, чтобы построить их темпредставление
Data Science
Моделирование тем с множеством синонимов – как извлечь ‘скрытые темы’
00
Вопрос или проблема Вот мой корпус { 0: "собаки милые", # собаки дружелюбные 1: "метисы добрые", # собаки дружелюбные 2: "псинки прекрасные", # собаки дружелюбные ..., 3: "кошки злые", # кошки недружелюбные 4: "могги противные", # кошки недружелюбные