tokenization
Data Science
Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm
Data Science
Вопрос или проблема Я создаю токенизатор с import tf tokenizer = tf.keras.preprocessing.text.Tokenizer(split="", char_level=True, ...) tokenizer.fit_to_texts(...) Но когда я конвертирую последовательности токенов в тексты, результат содержит пробел после
Data Science
Вопрос или проблема Я хочу подать амплитуду стационарных временных рядов в трансформер. Я планирую токенизировать/разбить амплитуду на дискретные значения. Таким образом, трансформер будет обучаться на уникальных целых токенах вместо непрерывных значений.
Data Science
Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?
Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “
Data Science
Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.
Data Science
Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста
Data Science
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’
Data Science
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Вопрос или проблема Я пытаюсь дообучить модель, используя API дообучения OpenAI. Я передаю тексты (например, статьи из газет) в качестве подсказок и данные, которые хочу получить, в качестве завершений. Рассмотрим следующее: если статья из газеты, которую