gensim
Data Science
Вопрос или проблема Я хочу обучить fasttext на своей собственной корпусе. Однако у меня есть маленький вопрос перед продолжением. Нужно ли мне каждое предложение как отдельный элемент в корпусе, или я могу иметь много предложений как один элемент?
Data Science
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.