Data Science
Количество двунаправленных LSTM в модели энкодер-декодер равно максимальной длине входного текста/символов?
00
Вопрос или проблема Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/. Мне кажется, что количество LSTM в кодере
Data Science
Как мы получаем выходной слой в скип-грам?
00
Вопрос или проблема Не могли бы вы объяснить, как мы получаем выходной слой в этой архитектуре (векторы [0.2, 0.8, -1.4, 1.2] и [-0.3, 0.2, -0.7, 0.1]). Я понимаю, что предыдущий слой — это встраивания слова “коричневый”
Data Science
NLP – Модель на основе извлечения
00
Вопрос или проблема Моя цель – предсказать наиболее подходящий ответ на высказывание из группы из 21 потенциального ответа. (Я не уверен, что “вопрос” называется высказыванием, хотя.) Пример: Высказывание: Как ты сегодня? Ответы: Ответ1, 2, …
Data Science
Почему трансформерам нужны позиционные кодировки?
00
Вопрос или проблема По крайней мере, в первом слое самовнимания в кодировщике входные данные имеют соответствие с выходными, у меня есть следующие вопросы. Неужели порядок уже неявно захватывается векторами запросов, которые сами по себе являются просто
Data Science
Как рассчитать семантическую схожесть между субтитрами видео?
00
Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.
Data Science
библиотеки для преобразования pdf в json
00
Вопрос или проблема Я ищу библиотеку, которая конвертирует pdf в json. В этом json заголовок абзаца является ключом, а значение – это содержание абзаца. Есть ли такая библиотека для Python? Я уже использую pdfminer, но она просто конвертирует в обычный текст.
Data Science
Вопрос о тренировочных данных в word2vec – skip-gram
00
Вопрос или проблема У меня есть очень простой вопрос относительно обучающей выборки в word2vec. В реализации skip-gram, обучающая выборка (если я правильно понимаю) генерируется в виде пар слов, как показано на этом изображении: Это, по сути, просто пары векторов one-hot.
Data Science
Есть ли термин для моделей кодировщик-декодировщик с кодировщиком в 0 слоев?
00
Вопрос или проблема Как мы называем кодировщик-декодер с 0 слоями кодировщика и поперечной внимательностью слоев декодера, направленной на выходы слоя встраивания кодировщика? 0-N Кодировщик-декодер Только декодер с поперечной внимательностью Prefix-LM
Data Science
Рабочее поведение BERT по сравнению с Transformers, Self-Attention+LSTM и Attention+LSTM на задаче классификации научных STEM данных?
00
Вопрос или проблема Я использовал предобученный BERT с Focal Loss для классификации физики, химии, биологии и математики и получил хороший макрос F-1 0.91. Это неплохо, учитывая, что ему нужно было искать токены, такие как triangle, reaction, mitochondria и newton и т.
Data Science
Необходима: библиотека Java для расчета читаемости/сложности текста.
00
Вопрос или проблема В принципе, это то же самое, что это, но для Java (и желательно для нескольких языков) (например, индекс читаемости Флеша, индекс SMOG, уровень Флеша-Кинкейда, индекс Коулмана-Лиу, автоматический индекс читаемости, оценка читаемости
Data Science
Сжатые модели Маркова ограничены только биграммами?
00
Вопрос или проблема Я читаю приложение A к книге Юрафски о скрытых моделях Маркова, и он упоминает модель Маркова, представляющую биграммную модель с учетом предположения Маркова. Эта цепь Маркова должна быть знакома; на самом деле, она представляет собой
Data Science
Предсказание с использованием слов, которые не входили в обучение, в сверточной нейронной сети с предварительно обученными векторными представлениями слов.
00
Вопрос или проблема В классификации предложений с использованием предварительно обученных эмбеддингов (fasttext) в CNN, как CNN предсказывает категорию предложения, если слова не были в обучающем наборе? Я думаю, что обученная модель содержит веса, эти
Data Science
Обучите модель глубокого обучения порциями/последовательно, чтобы избежать ошибки памяти.
00
Вопрос или проблема Как мне обучить/адаптировать модель по частям, чтобы избежать ужасной ошибки памяти? def TFIDF(X_train, X_test, MAX_NB_WORDS=75000): vectorizer_x = TfidfVectorizer(max_features=MAX_NB_WORDS) X_train = vectorizer_x.
Data Science
Как токенизация WordPiece помогает эффективно справляться с проблемой редких слов в НЛП?
00
Вопрос или проблема Я заметил, что модели NLP, такие как BERT, используют WordPiece для токенизации. В WordPiece мы разбиваем токены, например, playing на play и ##ing. Упоминается, что он охватывает более широкий спектр слов, находящихся вне словаря (OOV).
Data Science
Как выбрать порог для Phrases в gensim при генерации биграмм?
00
Вопрос или проблема Я генерирую биграмы с помощью from gensim.models.phrases, которые буду использовать далее с TF-IDF и/или gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k документов, ~500-1k токенов каждый.
Вопросы и ответы
нужна помощь для классификатора текстов на родном языке
00
Вопрос или проблема Я недавно подал заявление на стажировку, и они назначили мне задачу автоматизировать классификацию и маршрутизацию общественных жалоб с помощью НЛП и МЛ моделей. Входные данные – это отсканированный PDF-документ, содержащий рукописный текст на малаялам.
Data Science
Модели последовательностей word2vec
00
Вопрос или проблема Я работаю с набором данных, который содержит более 100 000 записей. Вот как выглядят данные: email_id cust_id campaign_name 123 4567 World of Zoro 123 4567 Boho XYz 123 4567 Guess ABC 234 5678 Anniversary X 234 5678 World of Zoro 234
Data Science
Как объединить NLP и числовые данные для задачи линейной регрессии
00
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Как выполнить токенизацию для твитов в XLNet?
00
Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста
Data Science
Отчет по метрикам SKLEARN: “Количество классов, 28, не соответствует размеру target_names, 35. Попробуйте указать параметр labels.”
00
Вопрос или проблема Как правильно определить метки или имена целевых классов для classification_report? У меня есть отчет, который выглядит так: print(metrics.classification_report(twenty_test.target[:n_samples], predicted, target_names=twenty_test.