Data Science
Почему классическая нейронная сеть работает лучше, чем LSTM, в анализе настроений.
00
Вопрос или проблема Моя цель – предсказать полярность некоторых отзывов (отрицательные, положительные или нейтральные). Я использовал две разные нейронные сети: left_branch = Input((7000, )) left_branch_dense = Dense(512, activation='relu')(left_branch)
Data Science
Интеграция NLP и приложения Angular
00
Вопрос или проблема Я делаю небольшой ПOC, в котором я обучил свою модель машинного обучения (Наивный Байес) и сохранил в формате “.pkl” (pickle). Теперь моя следующая задача — разработать веб-приложение, которое будет запрашивать у пользователя
Data Science
Когда одна модель превосходит другую в реальном использовании?
00
Вопрос или проблема У меня есть нейронная сеть NLP, которую я разработал с помощью Keras для многомаркерной классификации. Я несколько раз обучал модель и сохранял лучшие результаты (в соответствии с наилучшей оценкой точности проверки) после завершения каждого набора эпох.
Data Science
Как определить/узнать, что предложение касается будущего?
00
Вопрос или проблема Краткое введение: У меня есть отчет/абзац, в котором есть предложения, ссылающиеся на будущие планы/перспективы/ожидания для конкретного субъекта. Я хочу извлечь все такие предложения на данный момент. Проблема: Как идентифицировать
Data Science
Как использовать набор данных словаря для классификации текста?
00
Вопрос или проблема У меня есть набор данных, аналогичный newsgroup20, для классификации. С обучающим набором данных у меня есть набор данных словаря, который объясняет некоторые жаргоны в обучающем наборе данных. Эти два набора данных различны, так как
Программное обеспечение
Существуют ли библиотеки или проекты для распознавания именованных сущностей на основе правил?
00
Вопрос или проблема Одним из тех, что мы рассматривали ранее, является AeroText, но похоже, что он больше не существует как самостоятельный проект. Я думаю, что его можно написать на любом языке, поскольку нас интересует вывод (аннотированные сущности)
Data Science
Предсказание кодов беременности с помощью трансформера
00
Вопрос или проблема Я пытаюсь предсказать коды беременности с помощью базовой архитектуры трансформатора. Эти коды беременности выглядят следующим образом: prg001, prg002 до prg030. Prg001 будет означать пренатальный скрининг, а prg030 будет означать исход родов для матери.
Data Science
Какой наилучший метод для обнаружения синонимов?
00
Вопрос или проблема В обработке естественного языка и вычислительной лингвистике какие методы считаются передовыми для извлечения похожих слов? Может кто-нибудь направить меня к этим ресурсам? Современные достижения в обнаружении синонимов склонны быть
Data Science
Группировка строк профилей с одинаковыми словами, но в различном порядке.
00
Вопрос или проблема У меня есть датафрейм, содержащий столбец типов профилей, который выглядит следующим образом: 0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript
Data Science
Ошибка получения объяснения предсказания с использованием shap_values при использовании конвейера scikit-learn?
00
Вопрос или проблема Я строю модель NLP для предсказания типа языка (C/C++/C#/Python…) для данного кода. Теперь мне нужно предоставить объяснение для предсказания моей модели. Например, следующий пользовательский ввод написан на Java, и модель это
Data Science
Извлечение разделов из документа на основе списка ключевых слов – Python
00
Вопрос или проблема Я новичок в обработке естественного языка и хотел бы спросить, как я могу извлечь предложения из текста на основе ключевых слов, которые у меня есть, используя Python. Я создал список ключевых слов, которые будут использоваться для
Data Science
Как оправдать логарифмически масштабированную частоту для tf в tf-idf?
00
Вопрос или проблема Я изучаю tf-idf (частота термина – обратная частота документа). Исходная логика для tf была простой: количество термина t / общее количество терминов в документе. Однако я столкнулся с логарифмически шкалированной частотой: log(1
Data Science
Изменение значений по умолчанию ресурсов ANNIE в GATE из Java-кода
00
Вопрос или проблема В GATE значения по умолчанию для ANNIE устанавливаются во время инициализации, но иногда в зависимости от требований их необходимо изменить. Мое требование : Я хочу извлекать английские предложения, не учитывая “
Data Science
Обнаружение грамматических ошибок с помощью BERT
00
Вопрос или проблема Мы донастраивали модель BERT (bert-base-uncased) с помощью набора данных CoLA для задачи классификации предложений. Набор данных представляет собой смесь предложений с грамматическими ошибками и без них. Донастроенная модель затем
Data Science
Ошибка OOM при тонкой настройке
00
Вопрос или проблема Ошибка OOM возникает, даже когда я использую квантование и контроль градиентов во время тонкой настройки. Это мой блокнот для тонкой настройки на нескольких GPU. Он выдает ошибку памяти после 5 шагов обучения, я пробовал много вещей
Data Science
Ошибка Gensim doc2vec: KeyError: “слово ‘senseless’ не в словаре”
00
Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.
Data Science
Как мне визуализировать данные для проекта по обработке естественного языка?
00
Вопрос или проблема Я использую набор данных вопросов и ответов. Моя нейронная сеть принимает вопрос и содержание статьи и выводит, с какого места начинается ответ (в виде целого числа). Как мне визуализировать мои данные, как их обработать и какие графики использовать?
Data Science
Какую модель использовать, чтобы различать имена с одинаковыми словами?
00
Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “
Data Science
Как модельRetriever (кодировщик запросов) обучается от начала до конца в рамках увеличенного поиска для генерации (RAG)?
00
Вопрос или проблема Архитектура RAG из оригинальной статьи Поскольку потеря рассчитывается на выходном слое генератора, как градиенты обратным распространением передаются в модель извлечения? Потому что вводом для генератора является чистый текст, то
Data Science
Работа с богатым словарным запасом и низкой средней частотой слов в NLP
00
Вопрос или проблема Какой лучший способ справиться с набором данных, который имеет богатый словарный запас и низкую среднюю частоту слов, показывающий низкую точность валидации? Читая online, я увидел, что многие люди рекомендуют удалить стоп-слова и