Data Science
Моделирование тем на основе всего лишь 24 документов дает одну и ту же “тему” для любого K.
00
Вопрос или проблема Описание: У меня есть 24 документа, каждый из которых содержит около 2,5K токенов. Это публичные выступления. Мой процесс предварительной обработки текста является общим, включает в себя удаление знаков препинания, расширение английских
Data Science
Сиамские сети против семантического сходства (возможно, gensim)
00
Вопрос или проблема Я пытаюсь понять сети сиамского типа. В этом векторе вычисляется значение для объекта (скажем, изображения), и затем применяется метрика расстояния (скажем, манхэттенское расстояние) к двум векторам, полученным нейронной сетью(ями).
Data Science
Как вычислить среднее значение векторного представления слов и затем сравнить строки, используя sklearn.metrics.pairwise.
00
Вопрос или проблема Я абсолютно новичок в этой теме, поэтому я так запутался и застрял в этом коде на некоторое время, но я не уверен, как правильно решить это. Моя цель – написать короткое текстовое встраивание с использованием векторного представления из текста.
Data Science
Ошибка Gensim doc2vec: KeyError: “слово ‘senseless’ не в словаре”
00
Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.
Data Science
Обучение fasttext на собственном корпусе
00
Вопрос или проблема Я хочу обучить fasttext на своей собственной корпусе. Однако у меня есть маленький вопрос перед продолжением. Нужно ли мне каждое предложение как отдельный элемент в корпусе, или я могу иметь много предложений как один элемент?
Data Science
Модель Gensim LDA: возвращать ключевые слова на основе значения релевантности (λ – лямбда)
00
Вопрос или проблема Я использую библиотеку gensim для тематического моделирования, более конкретно LDA. Я создал свой корпус, свой словарь и свою модель LDA. С помощью библиотеки pyLDAvis я визуализировал результаты. Когда я распечатываю слова с наивысшей
Data Science
Как определить сходство текста на основе обучающих данных?
00
Вопрос или проблема У меня есть набор документов (с 1 по 11), для которых разметка выполнена. Предположим: Документ №: 1,3,5,7 - относится к Типу А Документ №: 2,4,9 - относится к Типу B Документ №: 8,10 - относится к Типу C Документ №: 6,11 - никому
Data Science
Как выбрать порог для Phrases в gensim при генерации биграмм?
00
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.