bert
Data Science
Вопрос или проблема Я пытался написать генератор для модели DistillBertFast ## Генератор def _generator(text=train_texts, label=Y_oh_train, batch_size=1): # label = tf.ragged.constant(label) while True: for i in range(0,len(text),batch_size): yield dict(tokenizer(text[i:i+batch_size]
Data Science
Вопрос или проблема Допустим, моя языковая модель предварительно обучена на общем текстовом корпусе, и я хочу использовать её для какой-то конкретной задачи, для которой наборы данных также включены в общий корпус. Есть ли какие-либо опасения по поводу
Data Science
Вопрос или проблема Я прочитал ответ на Quora, где специалист по НЛП указал, что использование вложений ELMO и BERT в качестве входных данных для LSTM или некоторой RNN сводит на нет назначение ELMo и BERT. Я не уверен, что согласен с этим утверждением.
Data Science
Вопрос или проблема Я следовал шагам, чтобы ввести в модель dev, test, train.tsv, обучил ее, затем попытался классифицировать тестовые данные, и у меня только 1 признак, классификация бинарная, 1 или 0. Я предположил, что в моем test_results.
Data Science
Вопрос или проблема Я успешно использовал BERTopic для следующих задач: получение тем, визуализация (тем, столбчатых диаграмм, документов …) и DTM (расширенный для получения графика области с существенным успехом). Тем не менее, я не могу использовать функцию find_topics().
Data Science
Вопрос или проблема Я создал простую нейронную сеть для бинарной классификации текста (спам/неспам) с использованием предобученного трансформера BERT. Текущая реализация на чистом Keras работает нормально. Однако я хотел построить график некоторых метрик
Data Science
Вопрос или проблема У меня есть небольшой набор данных (2000 образцов) заголовков газет и их забавных аналогов, где изменено только одно слово, чтобы звучало глупо, например: Оригинальный заголовок: Полицейский <офицер> арестован за злоупотребление
Data Science
Вопрос или проблема У нас есть много специфических для домена данных (более 200 миллионов данных, каждый документ содержит от ~100 до ~500 слов), и мы хотели получить модель языка, специфическую для домена. Мы взяли несколько образцов данных (более 2
Data Science
Вопрос или проблема Я совершенно нов в области машинного обучения и недавно познакомился с word2vec и BERT. Насколько я знаю, word2vec предоставляет векторное представление слов, но ограничен его словарным определением. Это означает, что алгоритм может
Data Science
Вопрос или проблема Я заметил, что модели NLP, такие как BERT, используют WordPiece для токенизации. В WordPiece мы разбиваем токены, например, playing на play и ##ing. Упоминается, что он охватывает более широкий спектр слов, находящихся вне словаря (OOV).
Data Science
Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными
Data Science
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
Вопрос или проблема Я новичок на HuggingFace и подгоняю модель BERT (distilbert-base-cased) с использованием библиотеки Transformers, но значение функции потерь не снижается, вместо этого я получаю loss: nan - accuracy: 0.0000e+00.
Data Science
Вопрос или проблема Допустим, у меня есть несколько списков текстов, такие как: A = ["девочка", "женщина", "королева"] B = ["мальчик", "мужчина", "король"] C = ["пожарный", "строительный рабочий", "механик"] D = ["медсестра", "учитель начальных классов"
Data Science
Вопрос или проблема У меня есть два списка предложений A=["Astring1", "Astring2",...,"AstringN"] B=["Bstring1", "Bstring2",...,"BstringN"] Я использовал модель встраивания, такую как BERT, чтобы получить векторные представления всех моих строк в каждом
Data Science
Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from