bag-of-words - ответы на вопросы

Data Science

Что нам следует выбрать: модель последовательности или n-граммная модель и почему это зависит от соотношения образцов к словам на образец?

Вопрос или проблема Этот учебник по машинному обучению от Google анализирует набор данных отзывов с imdb, чтобы предсказать положительный или отрицательный тег. При выборе модели Рассчитайте соотношение количества образцов/количество слов на образец.

Data Science

Как использовать scikit-learn для извлечения признаков из текста, если у меня есть только положительные и неразмеченные данные?

Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных

Data Science

Модель Word2vec CBOW с негативной выборкой

Вопрос или проблема Из этой статьи: В модели vanilla skip gram функция softmax является вычислительно очень затратной, так как требует сканирования всей матрицы выходных эмбеддингов (W_output) для вычисления вероятностного распределения всех V слов, где