nlp - ответы на вопросы

Data Science

Чем CBOW отличается от построения матрицы PMI и последующего уменьшения размерности с помощью PCA?

00

Вопрос или проблема PMI-матрица и уменьшение с использованием PCA: На основе количества раз, когда 2 слова появляются вместе (в определенном заранее заданном окне), и индивидуальной частоты слов, мы строим PMI-матрицу. Затем уменьшаем ее с помощью PCA

Data Science

Классификация с использованием текстов в качестве признаков

00

Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)

Data Science

Нужно ли мне считывать всю базу данных для рекомендательной системы?

00

Вопрос или проблема Допустим, у меня есть база данных примерно со 100000 строк. Я хочу создать систему рекомендаций на основе контента. Нужно ли мне действительно считывать всю базу данных для вычисления схожести? Это было бы очень дорого делать в облачных

Data Science

Как работать с «Ergänzungsstrichen» и «Bindestrichen» в немецкой обработке естественного языка?

00

Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm

Data Science

Классификатор BERT с API Ktrain не может предсказать новые данные.

00

Вопрос или проблема Я обучил классификатор для анализа настроений, используя архитектуру BERT. Мне удалось обучить классификатор, и я получаю точность проверки в 87%. Но всякий раз, когда я ввожу тестовые данные или простые предложения, такие как “

Data Science

Как извлечь подпредложения из предложения, упоминающие конкретный субъект?

00

Вопрос или проблема Я пытаюсь решить задачу обработки естественного языка (NLP). Для данного предложения, например: “Паста была вкусной, Пицца была средней” Я хочу извлечь настроение, связанное с продуктами питания.

Data Science

Вопрос о бутстреп-выборке

00

Вопрос или проблема У меня есть корпус вручную аннотированных (так называемый “золотой стандарт”) документов и коллекция аннотаций систем обработки естественного языка (NLP) на тексте из корпуса. Я хочу провести выборку систем и золотого стандарта

Data Science

Обработка векторных представлений слов как многомерные гауссовские случайные величины

00

Вопрос или проблема Я хочу задать некоторую вероятностную модель кластеризации (например, смешанную модель или LDA) для слов, и вместо использования традиционного метода представления слов в виде вектора-индикатора я хочу использовать соответствующие

Data Science

Извлечение информации с соответствующими полями.

00

Вопрос или проблема У меня есть большой объем отсканированных документов округа. Мне нужно извлечь информацию, такую как заголовок документа, имя и адрес заемщика, имя и адрес кредитора и т.д. Текст выглядит так: Пример: доверенность на имя, между abc

Data Science

Вывод из текстовых данных без метки или цели.

00

Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?

Data Science

Модель кодировщик-декодировщик для извлечения параметров из текстового ввода

00

Вопрос или проблема У меня есть входные данные в виде текста, из которого я хочу извлечь параметры, как указано в примере ниже. Вход: "клиент должен оплатить штраф в размере 10% от суммы, если задержка проекта превышает 3 месяца" и выход: penalty = 10%

Data Science

Передача деревьев зависимостей/составных деревьев нейронному машинному переводчику

00

Вопрос или проблема Я работаю над проектом в области нейронного машинного перевода с английского на ирландский. Я не являюсь экспертом и проводил все исследования самостоятельно для технологической выставки, поэтому извините, если мой вопрос простой.

Data Science

Определение похожих пользователей по их поведению на сайте.

00

Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая

Data Science

Как использовать нечеткую тематическую модель в качестве входных данных для классификационной модели

00

Вопрос или проблема У меня есть нечеткая кластеризация для тематического моделирования, и я получил это . Всего существует 50 тем [0-49], и каждая тема состоит из 30 слов с вероятностным мультипликативным фактором. Теперь как мне сделать это входными

Data Science

Контекстный захват в структурированном PDF?

00

Вопрос или проблема Я пытаюсь извлечь данные из резюме (PDF). Резюме всегда имеет определенную структуру, поэтому, если вы видите какие-то числа в резюме, то в зависимости от контекста можно понять, телефонный это номер, дата рождения или период.

Data Science

Классифицируйте документы, используя набор известных словарей.

00

Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск

Data Science

Векторные элементы word2vec?

00

Вопрос или проблема В word2vec я понимаю, что выбор размера вектора, скажем, 100, даст мне вектор слова, который имеет корреляцию (как бы) между словом и 100 другими словами в корпусе. Мой вопрос: одинаковы ли эти 100 слов для каждого слова?

Data Science

Как улучшить мою NLP-модель с несбалансированными данными?

00

Вопрос или проблема Я хочу классифицировать здоровье пациента как вероятность прогноза и получить 10 самых больных пациентов в больнице. У меня есть заметки о состоянии пациента, медицинские заметки, заметки о диагнозах и лабораторные заметки за каждый день.

Data Science

Как BERT работает для анализа настроений на основе аспектов?

00

Вопрос или проблема Я недавно использовал пакет для выполнения Aspect-Based Sentiment Analysis (ABSA) с помощью модели BERT. Коротко, модель принимает два ввода: слова, которые составляют аспекты предложение, на котором мы хотим выполнить ABSA Модель

Data Science

Разница между поиском изображений на основе текста и поиском объектов на естественном языке

00

Вопрос или проблема Я работаю над созданием модели, которая определяет местоположение объекта в сцене (2D изображение или 3D сцена) с использованием естественно-языкового запроса. Я наткнулся на статью о поиске объектов по естественному языку, в которой