nlp
Вопросы и ответы
Вопрос или проблема Я недавно подал заявление на стажировку, и они назначили мне задачу автоматизировать классификацию и маршрутизацию общественных жалоб с помощью НЛП и МЛ моделей. Входные данные – это отсканированный PDF-документ, содержащий рукописный текст на малаялам.
Data Science
Вопрос или проблема Я работаю с набором данных, который содержит более 100 000 записей. Вот как выглядят данные: email_id cust_id campaign_name 123 4567 World of Zoro 123 4567 Boho XYz 123 4567 Guess ABC 234 5678 Anniversary X 234 5678 World of Zoro 234
Data Science
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Вопрос или проблема X_train имеет только один столбец, который содержит все твиты. xlnet_model="xlnet-large-cased" xlnet_tokenizer = XLNetTokenizer.from_pretrained(xlnet_model) def get_inputs(tweets, tokenizer, max_len=120): """ Получает тензоры из текста
Data Science
Вопрос или проблема Как правильно определить метки или имена целевых классов для classification_report? У меня есть отчет, который выглядит так: print(metrics.classification_report(twenty_test.target[:n_samples], predicted, target_names=twenty_test.
Data Science
Вопрос или проблема Моя задача заключается в том, чтобы предсказать релевантные слова на основе короткого описания идеи. Например, “SQL — это язык, специфичный для домена, используемый в программировании и предназначенный для управления данными
Data Science
Вопрос или проблема У меня есть файл JSON (tweets.json), который содержит твиты (предложения) вместе с именем автора. Цель 1: Извлечь самые частые сущности из твитов. Цель 2: Узнать настроение/полярность каждого автора по отношению к каждой из сущностей.
Data Science
Вопрос или проблема В двухслойных персептронах, которые скользят по словам текста, таких как word2vec и fastText, высоты скрытых слоев могут быть произведением двух случайных переменных, таких как позиционные эмбеддинги и эмбеддинги слов (Mikolov et al.
Data Science
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
Вопрос или проблема У нас есть проблема, связанная со стандартизированной базой данных названий медикаментов. С другой стороны, существует подмножество названий медикаментов, в которых могут быть орфографические ошибки, различная структура или дефисы, отсутствующие слова и т.
Data Science
Вопрос или проблема У меня есть проблема, которую мне нужно решить. Она касается статей о футболе. Мне нужно определить, кто является главным героем в статье. У меня уже есть решение, которое я реализовал. Оно достаточно хорошее.
Data Science
Вопрос или проблема Сейчас я изучаю тему генерации текста для своего университетского проекта. Я (конечно) решил использовать RNN, принимая последовательность токенов на входе с целью предсказать следующий токен, исходя из этой последовательности.
Data Science
Вопрос или проблема Я новичок на HuggingFace и подгоняю модель BERT (distilbert-base-cased) с использованием библиотеки Transformers, но значение функции потерь не снижается, вместо этого я получаю loss: nan - accuracy: 0.0000e+00.
Data Science
Вопрос или проблема Насколько мне известно, в обратном распространении ошибка или градиент используются для обновления весов. В обратном распространении веса становятся небольшими относительно градиентов, что приводит к проблеме исчезающих градиентов.
Data Science
Вопрос или проблема У меня есть набор данных с короткими названиями профессий (например, «менеджер по маркетингу», «системный администратор» и т. д.) и соответствующими кодами профессий по переписи (например, 1006 Аналитики компьютерных систем).
Data Science
Вопрос или проблема Я умею классифицировать изображения с помощью CNN, но у меня есть проблема: у меня есть несколько типов отсканированных документов в PDF-файле на разных страницах. Некоторые типы отсканированных документов присутствуют на нескольких страницах внутри PDF.
Data Science
Вопрос или проблема Я пробую свои силы в обучении модели Word2Vec с использованием gensim. Я создал простой файл для обучения, который по сути содержал одну и ту же строку, повторенную несколько раз развлечения фильмы Фильмы кино развлечения Фильмы развлечения
Data Science
Вопрос или проблема Я хочу использовать машинное обучение и обработку естественного языка (NLP), чтобы преобразовать полуструктурированные данные в текстовых файлах в структурированные данные, предсказывая паттерны в файлах и разбивая поля.
Data Science
Вопрос или проблема Я ищу набор данных, связанный с банковской промышленностью, который включает следующую информацию: жалобы, управление счетами, переводы денег и ответы клиентов на акции. Я пытался найти такой набор данных на Kaggle, но не нашел ни
Data Science
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>