tokenization - ответы на вопросы

Data Science

Почему у модели GloVe (от gensim) нет векторов для чисел 1, 2, …?

00

Вопрос или проблема Я ожидал, что у GLoVe будут векторы для чисел. from gensim import downloader as api glove = api.load("glove-twitter-25") glove['1'] Это приводит к KeyError: "Key '1' not present" GLoVe игнорирует числа? Или они каким-то образом токенизированы?

Data Science

Как работать с «Ergänzungsstrichen» и «Bindestrichen» в немецкой обработке естественного языка?

00

Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm

Data Science

Почему мой уровень символов Keras токенизатор добавляет пробелы при преобразовании последовательностей в тексты?

00

Вопрос или проблема Я создаю токенизатор с import tf tokenizer = tf.keras.preprocessing.text.Tokenizer(split="", char_level=True, ...) tokenizer.fit_to_texts(...) Но когда я конвертирую последовательности токенов в тексты, результат содержит пробел после

Data Science

Как произвести биннинг/токенизацию амплитуды стационарного временного ряда?

00

Вопрос или проблема Я хочу подать амплитуду стационарных временных рядов в трансформер. Я планирую токенизировать/разбить амплитуду на дискретные значения. Таким образом, трансформер будет обучаться на уникальных целых токенах вместо непрерывных значений.

Data Science

Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?

00

Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “

Data Science

Как рассчитать семантическую схожесть между субтитрами видео?

00

Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.

Data Science

Как выполнить токенизацию для твитов в XLNet?

00

Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста

Data Science

Существует ли токенизатор для токенизации кода на языке Swift в Python?

00

Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .

Data Science

Не удается устранить ошибку типа с использованием Tokenizer.tokenize из NLTK

00

Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’

Data Science

Как соотносятся текстовая аналитика, обработка естественного языка и такие задачи, как токенизация, лемматизация, удаление стоп-слов и т.д.?

00

Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими

Data Science

Помнит ли GPT-3 данные из подсказок, использованных для его дообучения?

00

Вопрос или проблема Я пытаюсь дообучить модель, используя API дообучения OpenAI. Я передаю тексты (например, статьи из газет) в качестве подсказок и данные, которые хочу получить, в качестве завершений. Рассмотрим следующее: если статья из газеты, которую