nlp - ответы на вопросы - Page 10 of 13

Data Science

Количество двунаправленных LSTM в модели энкодер-декодер равно максимальной длине входного текста/символов?

00

Вопрос или проблема Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/. Мне кажется, что количество LSTM в кодере

Data Science

Как мы получаем выходной слой в скип-грам?

00

Вопрос или проблема Не могли бы вы объяснить, как мы получаем выходной слой в этой архитектуре (векторы [0.2, 0.8, -1.4, 1.2] и [-0.3, 0.2, -0.7, 0.1]). Я понимаю, что предыдущий слой — это встраивания слова “коричневый”

Data Science

NLP – Модель на основе извлечения

00

Вопрос или проблема Моя цель – предсказать наиболее подходящий ответ на высказывание из группы из 21 потенциального ответа. (Я не уверен, что “вопрос” называется высказыванием, хотя.) Пример: Высказывание: Как ты сегодня? Ответы: Ответ1, 2, …

Data Science

Почему трансформерам нужны позиционные кодировки?

00

Вопрос или проблема По крайней мере, в первом слое самовнимания в кодировщике входные данные имеют соответствие с выходными, у меня есть следующие вопросы. Неужели порядок уже неявно захватывается векторами запросов, которые сами по себе являются просто

Data Science

Как рассчитать семантическую схожесть между субтитрами видео?

00

Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.

Data Science

библиотеки для преобразования pdf в json

00

Вопрос или проблема Я ищу библиотеку, которая конвертирует pdf в json. В этом json заголовок абзаца является ключом, а значение – это содержание абзаца. Есть ли такая библиотека для Python? Я уже использую pdfminer, но она просто конвертирует в обычный текст.

Data Science

Вопрос о тренировочных данных в word2vec – skip-gram

00

Вопрос или проблема У меня есть очень простой вопрос относительно обучающей выборки в word2vec. В реализации skip-gram, обучающая выборка (если я правильно понимаю) генерируется в виде пар слов, как показано на этом изображении: Это, по сути, просто пары векторов one-hot.

Data Science

Есть ли термин для моделей кодировщик-декодировщик с кодировщиком в 0 слоев?

00

Вопрос или проблема Как мы называем кодировщик-декодер с 0 слоями кодировщика и поперечной внимательностью слоев декодера, направленной на выходы слоя встраивания кодировщика? 0-N Кодировщик-декодер Только декодер с поперечной внимательностью Prefix-LM

Data Science

Рабочее поведение BERT по сравнению с Transformers, Self-Attention+LSTM и Attention+LSTM на задаче классификации научных STEM данных?

00

Вопрос или проблема Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle, reaction, mitochondria и newton и т.

Data Science

Необходима: библиотека Java для расчета читаемости/сложности текста.

00

Вопрос или проблема В принципе, это то же самое, что это, но для Java (и желательно для нескольких языков) (например, индекс читаемости Флеша, индекс SMOG, уровень Флеша-Кинкейда, индекс Коулмана-Лиу, автоматический индекс читаемости, оценка читаемости

Data Science

Сжатые модели Маркова ограничены только биграммами?

00

Вопрос или проблема Я читаю приложение A к книге Юрафски о скрытых моделях Маркова, и он упоминает модель Маркова, представляющую биграммную модель с учетом предположения Маркова. Эта цепь Маркова должна быть знакома; на самом деле, она представляет собой

Data Science

Предсказание с использованием слов, которые не входили в обучение, в сверточной нейронной сети с предварительно обученными векторными представлениями слов.

00

Вопрос или проблема В классификации предложений с использованием предварительно обученных эмбеддингов (fasttext) в CNN, как CNN предсказывает категорию предложения, если слова не были в обучающем наборе? Я думаю, что обученная модель содержит веса, эти

Data Science

Обучите модель глубокого обучения порциями/последовательно, чтобы избежать ошибки памяти.

00

Вопрос или проблема Как мне обучить/адаптировать модель по частям, чтобы избежать ужасной ошибки памяти? def TFIDF(X_train, X_test, MAX_NB_WORDS=75000): vectorizer_x = TfidfVectorizer(max_features=MAX_NB_WORDS) X_train = vectorizer_x.

Data Science

Как токенизация WordPiece помогает эффективно справляться с проблемой редких слов в НЛП?

00

Вопрос или проблема Я заметил, что модели NLP, такие как BERT, используют WordPiece для токенизации. В WordPiece мы разбиваем токены, например, playing на play и ##ing. Упоминается, что он охватывает более широкий спектр слов, находящихся вне словаря (OOV).

Data Science

Как выбрать порог для Phrases в gensim при генерации биграмм?

00

Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.

Вопросы и ответы

нужна помощь для классификатора текстов на родном языке

00

Вопрос или проблема Я недавно подал заявление на стажировку, и они назначили мне задачу автоматизировать классификацию и маршрутизацию общественных жалоб с помощью НЛП и МЛ моделей. Входные данные – это отсканированный PDF-документ, содержащий рукописный текст на малаялам.

Data Science

Модели последовательностей word2vec

00

Вопрос или проблема Я работаю с набором данных, который содержит более 100 000 записей. Вот как выглядят данные: email_id cust_id campaign_name 123 4567 World of Zoro 123 4567 Boho XYz 123 4567 Guess ABC 234 5678 Anniversary X 234 5678 World of Zoro 234

Data Science

Как объединить NLP и числовые данные для задачи линейной регрессии

00

Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов

Data Science

Как выполнить токенизацию для твитов в XLNet?

00

Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста

Data Science

Отчет по метрикам SKLEARN: “Количество классов, 28, не соответствует размеру target_names, 35. Попробуйте указать параметр labels.”

00

Вопрос или проблема Как правильно определить метки или имена целевых классов для classification_report? У меня есть отчет, который выглядит так: print(metrics.classification_report(twenty_test.target[:n_samples], predicted, target_names=twenty_test.