Data Science
Как токенизация WordPiece помогает эффективно справляться с проблемой редких слов в НЛП?
00
Вопрос или проблема Я заметил, что модели NLP, такие как BERT, используют WordPiece для токенизации. В WordPiece мы разбиваем токены, например, playing на play и ##ing. Упоминается, что он охватывает более широкий спектр слов, находящихся вне словаря (OOV).
Data Science
Предсказание слова из набора слов
00
Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными
Data Science
Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)
00
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
HuggingFace Transformers выдает потерю: nan – точность: 0.0000e+00
00
Вопрос или проблема Я новичок на HuggingFace и подгоняю модель BERT (distilbert-base-cased) с использованием библиотеки Transformers, но значение функции потерь не снижается, вместо этого я получаю loss: nan - accuracy: 0.0000e+00.
Data Science
Найдите корреляцию между двумя списками текстов.
00
Вопрос или проблема Допустим, у меня есть несколько списков текстов, такие как: A = ["девочка", "женщина", "королева"] B = ["мальчик", "мужчина", "король"] C = ["пожарный", "строительный рабочий", "механик"] D = ["медсестра", "учитель начальных классов"
Data Science
Рассчитайте корреляцию двух списков эмбеддингов.
00
Вопрос или проблема У меня есть два списка предложений A=["Astring1", "Astring2",...,"AstringN"] B=["Bstring1", "Bstring2",...,"BstringN"] Я использовал модель встраивания, такую как BERT, чтобы получить векторные представления всех моих строк в каждом
Data Science
Визуализация BERTopic
00
Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from