nlp
Data Science
Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.
Data Science
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Вопрос или проблема Я работаю над задачей обработки естественного языка, которая требует использования эмбеддингов на уровне символов, и я пытался использовать Spacy. Однако, похоже, что spacy использует эмбеддинги на уровне слов для векторов слов, а
Data Science
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.
Data Science
Вопрос или проблема После прочтения нескольких статей я не уверен, возможно ли как-то сгенерировать текст с тем же значением (парафразировать его), используя только Word2vec. Я нашел другие подходы, которые используют последовательности пар предложений
Data Science
Вопрос или проблема Я обучил алгоритм классификации на модели анализа настроений, который классифицирует отзывы, собранные с Amazon, как Положительные или Отрицательные. Теперь для каждого класса я хочу получить ключевые слова из отзыва, т.
Data Science
Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?
Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “
Data Science
Вопрос или проблема У меня есть корпус текста (который можно использовать для обучения). Текст состоит из собственных имен, таких как названия улиц: Бонд-стрит Кресент Балмэйн Уэй Паркес Драйв Баррин Гордон-стрит Улица Маркузе Кларк Я хочу обнаружить
Data Science
Вопрос или проблема Я пытаюсь обучить модель spaCy с целью вычисления семантического сходства, но не получаю результатов, которых ожидал. Я создал два текстовых файла, которые содержат множество предложений с новым термином “
Data Science
Вопрос или проблема У меня есть небольшой набор данных (2000 образцов) заголовков газет и их забавных аналогов, где изменено только одно слово, чтобы звучало глупо, например: Оригинальный заголовок: Полицейский <офицер> арестован за злоупотребление
Data Science
Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор
Data Science
Вопрос или проблема Я пытаюсь создать генератор хайку на уровне слов с использованием нейронной сети LSTM. Я собираю хайку с Reddit в r/haiku и хотел начать с “простой” модели: мои тренировочные данные – это набор всех хайку, выровненный
Data Science
Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.
Data Science
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)
Data Science
Вопрос или проблема Я пытаюсь создать аналогичный текст на основе категории или сгенерировать текст, комбинируя схожие тексты в новый текст. Я проверял несколько задач в области обработки естественного языка, таких как генерация вопросов, но они не подходят для моей задачи.
Вопросы и ответы
Вопрос или проблема Я пытаюсь выполнить извлечение структурированного текста, используя некоторые приемы кэширования ключ-значение. Для этого примера я буду использовать следующую модель и данные: model_name = "Qwen/Qwen2.5-0.
Data Science
Вопрос или проблема Я работаю над задачей многоклассовой классификации последовательностей. Мой набор данных состоит из последовательностей данных различной длины. Например, 1500 размеченных образцов: 500 точек данных принадлежат классу A, 500 классу B и 500 классу C.
Вопросы и ответы
Вопрос или проблема Я рассчитала косинусное сходство между двумя документами очень простым способом, используя векторизацию TF-IDF в Python. Мне нужно визуализировать документы в виде векторного графика в 3D-пространстве. Как это, Вот код, который я использовала
Data Science
Вопрос или проблема Мои документы представляют собой всего лишь одно предложение, содержащее одну аннотацию. Предложения с одинаковой именованной сущностью, конечно, похожи, но не по контексту. Примеры обучения NER (насколько мне известно) всегда имеют
Вопросы и ответы
Вопрос или проблема Я работаю над проектом, цель которого – определить название болезни из разных предложений. Мне нужны некоторые советы. Я ищу библиотеки, из которых я могу получить список названий болезней, чтобы по крайней мере обнаружить болезнь в своем датафрейме.