nlp
Data Science
Вопрос или проблема PMI-матрица и уменьшение с использованием PCA: На основе количества раз, когда 2 слова появляются вместе (в определенном заранее заданном окне), и индивидуальной частоты слов, мы строим PMI-матрицу. Затем уменьшаем ее с помощью PCA
Data Science
Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)
Data Science
Вопрос или проблема Допустим, у меня есть база данных примерно со 100000 строк. Я хочу создать систему рекомендаций на основе контента. Нужно ли мне действительно считывать всю базу данных для вычисления схожести? Это было бы очень дорого делать в облачных
Data Science
Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm
Data Science
Вопрос или проблема Я обучил классификатор для анализа настроений, используя архитектуру BERT. Мне удалось обучить классификатор, и я получаю точность проверки в 87%. Но всякий раз, когда я ввожу тестовые данные или простые предложения, такие как “
Data Science
Вопрос или проблема Я пытаюсь решить задачу обработки естественного языка (NLP). Для данного предложения, например: “Паста была вкусной, Пицца была средней” Я хочу извлечь настроение, связанное с продуктами питания.
Data Science
Вопрос или проблема У меня есть корпус вручную аннотированных (так называемый “золотой стандарт”) документов и коллекция аннотаций систем обработки естественного языка (NLP) на тексте из корпуса. Я хочу провести выборку систем и золотого стандарта
Data Science
Вопрос или проблема Я хочу задать некоторую вероятностную модель кластеризации (например, смешанную модель или LDA) для слов, и вместо использования традиционного метода представления слов в виде вектора-индикатора я хочу использовать соответствующие
Data Science
Вопрос или проблема У меня есть большой объем отсканированных документов округа. Мне нужно извлечь информацию, такую как заголовок документа, имя и адрес заемщика, имя и адрес кредитора и т.д. Текст выглядит так: Пример: доверенность на имя, между abc
Data Science
Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?
Data Science
Вопрос или проблема У меня есть входные данные в виде текста, из которого я хочу извлечь параметры, как указано в примере ниже. Вход: "клиент должен оплатить штраф в размере 10% от суммы, если задержка проекта превышает 3 месяца" и выход: penalty = 10%
Data Science
Вопрос или проблема Я работаю над проектом в области нейронного машинного перевода с английского на ирландский. Я не являюсь экспертом и проводил все исследования самостоятельно для технологической выставки, поэтому извините, если мой вопрос простой.
Data Science
Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая
Data Science
Как использовать нечеткую тематическую модель в качестве входных данных для классификационной модели
Вопрос или проблема У меня есть нечеткая кластеризация для тематического моделирования, и я получил это . Всего существует 50 тем [0-49], и каждая тема состоит из 30 слов с вероятностным мультипликативным фактором. Теперь как мне сделать это входными
Data Science
Вопрос или проблема Я пытаюсь извлечь данные из резюме (PDF). Резюме всегда имеет определенную структуру, поэтому, если вы видите какие-то числа в резюме, то в зависимости от контекста можно понять, телефонный это номер, дата рождения или период.
Data Science
Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск
Data Science
Вопрос или проблема В word2vec я понимаю, что выбор размера вектора, скажем, 100, даст мне вектор слова, который имеет корреляцию (как бы) между словом и 100 другими словами в корпусе. Мой вопрос: одинаковы ли эти 100 слов для каждого слова?
Data Science
Вопрос или проблема Я хочу классифицировать здоровье пациента как вероятность прогноза и получить 10 самых больных пациентов в больнице. У меня есть заметки о состоянии пациента, медицинские заметки, заметки о диагнозах и лабораторные заметки за каждый день.
Data Science
Вопрос или проблема Я недавно использовал пакет для выполнения Aspect-Based Sentiment Analysis (ABSA) с помощью модели BERT. Коротко, модель принимает два ввода: слова, которые составляют аспекты предложение, на котором мы хотим выполнить ABSA Модель
Data Science
Вопрос или проблема Я работаю над созданием модели, которая определяет местоположение объекта в сцене (2D изображение или 3D сцена) с использованием естественно-языкового запроса. Я наткнулся на статью о поиске объектов по естественному языку, в которой