tokenization
Data Science
Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?
Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “
Data Science
Вопрос или проблема Я собираюсь рассчитать точность подписи, сгенерированной путем сравнения ее с несколькими эталонными предложениями. Например, подписи для одного видео следующие: Эти подписи предназначены только для одного и того же видео.
Data Science
Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста
Data Science
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’
Data Science
Вопрос или проблема Я новичок в мире больших данных и извлечения текста. Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины. Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими
Data Science
Вопрос или проблема Я пытаюсь дообучить модель, используя API дообучения OpenAI. Я передаю тексты (например, статьи из газет) в качестве подсказок и данные, которые хочу получить, в качестве завершений. Рассмотрим следующее: если статья из газеты, которую