Data Science
Обработка векторных представлений слов как многомерные гауссовские случайные величины
00
Вопрос или проблема Я хочу задать некоторую вероятностную модель кластеризации (например, смешанную модель или LDA) для слов, и вместо использования традиционного метода представления слов в виде вектора-индикатора я хочу использовать соответствующие
Data Science

Почему Doc2Vec будет работать?

01
Вопрос или проблема Мой эксперимент с Doc2Vec не принес хороших результатов. Это заставляет меня задуматься, почему он вообще работает. Интуитивно, Word2Vec работает за счет многих повторений похожих шаблонов слов. Для вектор документа, если он видит
Data Science
Ошибка Gensim doc2vec: KeyError: “слово ‘senseless’ не в словаре”
00
Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.
Data Science
Почему мы хотим максимизировать среднюю логарифмическую вероятность в нейронных языковых моделях?
00
Вопрос или проблема В настоящее время я пытаюсь понять фреймворк Paragraph Vector, читая статью “Распределенное представление предложений и документов” автора Куока Ле и Томаса Миколова, но у меня возникают трудности с пониманием формального
Data Science
Существует ли способ обучить Doc2Vec на корпусе документов и иметь возможность взять новый документ и увидеть, насколько он похож на обученный корпус?
00
Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “
Data Science
Векторное представление документов для классификации текста
00
Вопрос или проблема Я ищу правильный метод встраивания документов. Я знаю, что doc2vec даст мне векторные представления для данного корпуса, но как мне встраивать новые документы? Мне нужно обучить нейронную сеть, которая будет классифицировать текст
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды