Data Science
Обучение fasttext на собственном корпусе
00
Вопрос или проблема Я хочу обучить fasttext на своей собственной корпусе. Однако у меня есть маленький вопрос перед продолжением. Нужно ли мне каждое предложение как отдельный элемент в корпусе, или я могу иметь много предложений как один элемент?
Data Science
Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)
00
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Как определить сходство текста на основе обучающих данных?
00
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Как выбрать порог для Phrases в gensim при генерации биграмм?
00
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.