nlp - ответы на вопросы - Page 8 of 13

Data Science

Измерение показателя согласованности для моделей Top2Vec

00

Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.

Data Science

Какую предобученную модель выбрать для генерации векторов из названий магазинов, написанных на английском языке?

00

Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”

Data Science

Векторные представления на уровне символов в Python

00

Вопрос или проблема Я работаю над задачей обработки естественного языка, которая требует использования эмбеддингов на уровне символов, и я пытался использовать Spacy. Однако, похоже, что spacy использует эмбеддинги на уровне слов для векторов слов, а

Data Science

Как мне разработать функции для задачи идентификации именованных сущностей?

00

Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.

Data Science

Возможно ли использовать Word2vec для парафразирования текста?

00

Вопрос или проблема После прочтения нескольких статей я не уверен, возможно ли как-то сгенерировать текст с тем же значением (парафразировать его), используя только Word2vec. Я нашел другие подходы, которые используют последовательности пар предложений

Data Science

Получите ключевые слова из положительных и отрицательных отзывов.

00

Вопрос или проблема Я обучил алгоритм классификации на модели анализа настроений, который классифицирует отзывы, собранные с Amazon, как Положительные или Отрицательные. Теперь для каждого класса я хочу получить ключевые слова из отзыва, т.

Data Science

Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?

00

Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “

Data Science

Как оценить качество / достоверность текстовой информации?

00

Вопрос или проблема У меня есть корпус текста (который можно использовать для обучения). Текст состоит из собственных имен, таких как названия улиц: Бонд-стрит Кресент Балмэйн Уэй Паркес Драйв Баррин Гордон-стрит Улица Маркузе Кларк Я хочу обнаружить

Data Science

Обучите модель spaCy для семантического сходства.

00

Вопрос или проблема Я пытаюсь обучить модель spaCy с целью вычисления семантического сходства, но не получаю результатов, которых ожидал. Я создал два текстовых файла, которые содержат множество предложений с новым термином “

Data Science

Можно ли использовать LSTM или предобученный BERT для Masked LM для предсказания измененного слова в предложении, используя небольшой набор данных? (2000 образцов)

00

Вопрос или проблема У меня есть небольшой набор данных (2000 образцов) заголовков газет и их забавных аналогов, где изменено только одно слово, чтобы звучало глупо, например: Оригинальный заголовок: Полицейский <офицер> арестован за злоупотребление

Data Science

Является ли это хорошим подходом для классификации тикетов, которые содержат описание и логи?

00

Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор

Data Science

Почему моя нейронная языковая модель работает так плохо?

00

Вопрос или проблема Я пытаюсь создать генератор хайку на уровне слов с использованием нейронной сети LSTM. Я собираю хайку с Reddit в r/haiku и хотел начать с “простой” модели: мои тренировочные данные – это набор всех хайку, выровненный

Data Science

Как определить признаки, из-за которых модель неправильно классифицирует в текстовой классификации.

00

Вопрос или проблема Привет, я работаю над классификацией текста в социальных медиа в финансовой сфере на тайском языке. Проблема заключается в путанице классов, неправильно классифицированные предсказания имеют последовательный паттерн как пара.

Data Science

Как рассчитать лексическую связность и семантическую информативность для заданного набора данных?

01

Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)

Data Science

Сгенерировать аналогичный текст на основе категории или похожих текстов.

00

Вопрос или проблема Я пытаюсь создать аналогичный текст на основе категории или сгенерировать текст, комбинируя схожие тексты в новый текст. Я проверял несколько задач в области обработки естественного языка, таких как генерация вопросов, но они не подходят для моей задачи.

Вопросы и ответы

Кэширование KV для текстов переменной длины

00

Вопрос или проблема Я пытаюсь выполнить извлечение структурированного текста, используя некоторые приемы кэширования ключ-значение. Для этого примера я буду использовать следующую модель и данные: model_name = "Qwen/Qwen2.5-0.

Data Science

Обработка очень коротких и очень длинных последовательностей с помощью нейронной сети

00

Вопрос или проблема Я работаю над задачей многоклассовой классификации последовательностей. Мой набор данных состоит из последовательностей данных различной длины. Например, 1500 размеченных образцов: 500 точек данных принадлежат классу A, 500 классу B и 500 классу C.

Вопросы и ответы

Геометрическая интерпретация косинусного сходства

00

Вопрос или проблема Я рассчитала косинусное сходство между двумя документами очень простым способом, используя векторизацию TF-IDF в Python. Мне нужно визуализировать документы в виде векторного графика в 3D-пространстве. Как это, Вот код, который я использовала

Data Science

Как обучать NER LSTM на уровне отдельного предложения

00

Вопрос или проблема Мои документы представляют собой всего лишь одно предложение, содержащее одну аннотацию. Предложения с одинаковой именованной сущностью, конечно, похожи, но не по контексту. Примеры обучения NER (насколько мне известно) всегда имеют

Вопросы и ответы

Обнаружение заболеваний с помощью НЛП

00

Вопрос или проблема Я работаю над проектом, цель которого – определить название болезни из разных предложений. Мне нужны некоторые советы. Я ищу библиотеки, из которых я могу получить список названий болезней, чтобы по крайней мере обнаружить болезнь в своем датафрейме.