Data Science
Чем CBOW отличается от построения матрицы PMI и последующего уменьшения размерности с помощью PCA?
00
Вопрос или проблема PMI-матрица и уменьшение с использованием PCA: На основе количества раз, когда 2 слова появляются вместе (в определенном заранее заданном окне), и индивидуальной частоты слов, мы строим PMI-матрицу. Затем уменьшаем ее с помощью PCA
Data Science
Классификация с использованием текстов в качестве признаков
00
Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)
Data Science
Нужно ли мне считывать всю базу данных для рекомендательной системы?
00
Вопрос или проблема Допустим, у меня есть база данных примерно со 100000 строк. Я хочу создать систему рекомендаций на основе контента. Нужно ли мне действительно считывать всю базу данных для вычисления схожести? Это было бы очень дорого делать в облачных
Data Science
Как работать с «Ergänzungsstrichen» и «Bindestrichen» в немецкой обработке естественного языка?
00
Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm
Data Science
Классификатор BERT с API Ktrain не может предсказать новые данные.
00
Вопрос или проблема Я обучил классификатор для анализа настроений, используя архитектуру BERT. Мне удалось обучить классификатор, и я получаю точность проверки в 87%. Но всякий раз, когда я ввожу тестовые данные или простые предложения, такие как “
Data Science
Как извлечь подпредложения из предложения, упоминающие конкретный субъект?
00
Вопрос или проблема Я пытаюсь решить задачу обработки естественного языка (NLP). Для данного предложения, например: “Паста была вкусной, Пицца была средней” Я хочу извлечь настроение, связанное с продуктами питания.
Data Science
Вопрос о бутстреп-выборке
00
Вопрос или проблема У меня есть корпус вручную аннотированных (так называемый “золотой стандарт”) документов и коллекция аннотаций систем обработки естественного языка (NLP) на тексте из корпуса. Я хочу провести выборку систем и золотого стандарта
Data Science
Обработка векторных представлений слов как многомерные гауссовские случайные величины
00
Вопрос или проблема Я хочу задать некоторую вероятностную модель кластеризации (например, смешанную модель или LDA) для слов, и вместо использования традиционного метода представления слов в виде вектора-индикатора я хочу использовать соответствующие
Data Science
Извлечение информации с соответствующими полями.
00
Вопрос или проблема У меня есть большой объем отсканированных документов округа. Мне нужно извлечь информацию, такую как заголовок документа, имя и адрес заемщика, имя и адрес кредитора и т.д. Текст выглядит так: Пример: доверенность на имя, между abc
Data Science
Вывод из текстовых данных без метки или цели.
00
Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?
Data Science
Модель кодировщик-декодировщик для извлечения параметров из текстового ввода
00
Вопрос или проблема У меня есть входные данные в виде текста, из которого я хочу извлечь параметры, как указано в примере ниже. Вход: "клиент должен оплатить штраф в размере 10% от суммы, если задержка проекта превышает 3 месяца" и выход: penalty = 10%
Data Science
Передача деревьев зависимостей/составных деревьев нейронному машинному переводчику
00
Вопрос или проблема Я работаю над проектом в области нейронного машинного перевода с английского на ирландский. Я не являюсь экспертом и проводил все исследования самостоятельно для технологической выставки, поэтому извините, если мой вопрос простой.
Data Science
Определение похожих пользователей по их поведению на сайте.
00
Вопрос или проблема Мне нужно найти пользователей с похожим поведением на сайте для персонализированных рекомендаций. У меня есть большая база данных действий пользователей на сайте, собранная с помощью Retentioneering. Мне нужно создать систему, которая
Data Science
Как использовать нечеткую тематическую модель в качестве входных данных для классификационной модели
00
Вопрос или проблема У меня есть нечеткая кластеризация для тематического моделирования, и я получил это . Всего существует 50 тем [0-49], и каждая тема состоит из 30 слов с вероятностным мультипликативным фактором. Теперь как мне сделать это входными
Data Science
Контекстный захват в структурированном PDF?
00
Вопрос или проблема Я пытаюсь извлечь данные из резюме (PDF). Резюме всегда имеет определенную структуру, поэтому, если вы видите какие-то числа в резюме, то в зависимости от контекста можно понять, телефонный это номер, дата рождения или период.
Data Science
Классифицируйте документы, используя набор известных словарей.
00
Вопрос или проблема У меня есть множество документов, которые я хочу классифицировать, чтобы определить, какие из них говорят о футболе (обучение без учителя, я не хочу вручную маркировать документы). Один из способов, который я рассматривал, это поиск
Data Science
Векторные элементы word2vec?
00
Вопрос или проблема В word2vec я понимаю, что выбор размера вектора, скажем, 100, даст мне вектор слова, который имеет корреляцию (как бы) между словом и 100 другими словами в корпусе. Мой вопрос: одинаковы ли эти 100 слов для каждого слова?
Data Science
Как улучшить мою NLP-модель с несбалансированными данными?
00
Вопрос или проблема Я хочу классифицировать здоровье пациента как вероятность прогноза и получить 10 самых больных пациентов в больнице. У меня есть заметки о состоянии пациента, медицинские заметки, заметки о диагнозах и лабораторные заметки за каждый день.
Data Science
Как BERT работает для анализа настроений на основе аспектов?
00
Вопрос или проблема Я недавно использовал пакет для выполнения Aspect-Based Sentiment Analysis (ABSA) с помощью модели BERT. Коротко, модель принимает два ввода: слова, которые составляют аспекты предложение, на котором мы хотим выполнить ABSA Модель
Data Science
Разница между поиском изображений на основе текста и поиском объектов на естественном языке
00
Вопрос или проблема Я работаю над созданием модели, которая определяет местоположение объекта в сцене (2D изображение или 3D сцена) с использованием естественно-языкового запроса. Я наткнулся на статью о поиске объектов по естественному языку, в которой