nlp
Data Science
Вопрос или проблема Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/. Мне кажется, что количество LSTM в кодере
Data Science
Вопрос или проблема Не могли бы вы объяснить, как мы получаем выходной слой в этой архитектуре (векторы [0.2, 0.8, -1.4, 1.2] и [-0.3, 0.2, -0.7, 0.1]). Я понимаю, что предыдущий слой — это встраивания слова “коричневый”
Data Science
Вопрос или проблема Моя цель – предсказать наиболее подходящий ответ на высказывание из группы из 21 потенциального ответа. (Я не уверен, что “вопрос” называется высказыванием, хотя.) Пример: Высказывание: Как ты сегодня? Ответы: Ответ1, 2, …
Data Science
Вопрос или проблема По крайней мере, в первом слое самовнимания в кодировщике входные данные имеют соответствие с выходными, у меня есть следующие вопросы. Неужели порядок уже неявно захватывается векторами запросов, которые сами по себе являются просто
Data Science
Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.
Data Science
Вопрос или проблема Я ищу библиотеку, которая конвертирует pdf в json. В этом json заголовок абзаца является ключом, а значение – это содержание абзаца. Есть ли такая библиотека для Python? Я уже использую pdfminer, но она просто конвертирует в обычный текст.
Data Science
Вопрос или проблема У меня есть очень простой вопрос относительно обучающей выборки в word2vec. В реализации skip-gram, обучающая выборка (если я правильно понимаю) генерируется в виде пар слов, как показано на этом изображении: Это, по сути, просто пары векторов one-hot.
Data Science
Вопрос или проблема Как мы называем кодировщик-декодер с 0 слоями кодировщика и поперечной внимательностью слоев декодера, направленной на выходы слоя встраивания кодировщика? 0-N Кодировщик-декодер Только декодер с поперечной внимательностью Prefix-LM
Data Science
Вопрос или проблема Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle, reaction, mitochondria и newton и т.
Data Science
Вопрос или проблема В принципе, это то же самое, что это, но для Java (и желательно для нескольких языков) (например, индекс читаемости Флеша, индекс SMOG, уровень Флеша-Кинкейда, индекс Коулмана-Лиу, автоматический индекс читаемости, оценка читаемости
Data Science
Вопрос или проблема Я читаю приложение A к книге Юрафски о скрытых моделях Маркова, и он упоминает модель Маркова, представляющую биграммную модель с учетом предположения Маркова. Эта цепь Маркова должна быть знакома; на самом деле, она представляет собой
Data Science
Вопрос или проблема В классификации предложений с использованием предварительно обученных эмбеддингов (fasttext) в CNN, как CNN предсказывает категорию предложения, если слова не были в обучающем наборе? Я думаю, что обученная модель содержит веса, эти
Data Science
Вопрос или проблема Как мне обучить/адаптировать модель по частям, чтобы избежать ужасной ошибки памяти? def TFIDF(X_train, X_test, MAX_NB_WORDS=75000): vectorizer_x = TfidfVectorizer(max_features=MAX_NB_WORDS) X_train = vectorizer_x.
Data Science
Вопрос или проблема Я заметил, что модели NLP, такие как BERT, используют WordPiece для токенизации. В WordPiece мы разбиваем токены, например, playing на play и ##ing. Упоминается, что он охватывает более широкий спектр слов, находящихся вне словаря (OOV).
Data Science
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Вопросы и ответы
Вопрос или проблема Я недавно подал заявление на стажировку, и они назначили мне задачу автоматизировать классификацию и маршрутизацию общественных жалоб с помощью НЛП и МЛ моделей. Входные данные – это отсканированный PDF-документ, содержащий рукописный текст на малаялам.
Data Science
Вопрос или проблема Я работаю с набором данных, который содержит более 100 000 записей. Вот как выглядят данные: email_id cust_id campaign_name 123 4567 World of Zoro 123 4567 Boho XYz 123 4567 Guess ABC 234 5678 Anniversary X 234 5678 World of Zoro 234
Data Science
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста
Data Science
Вопрос или проблема Как правильно определить метки или имена целевых классов для classification_report? У меня есть отчет, который выглядит так: print(metrics.classification_report(twenty_test.target[:n_samples], predicted, target_names=twenty_test.