nlp
Data Science
Вопрос или проблема Моя цель – предсказать полярность некоторых отзывов (отрицательные, положительные или нейтральные). Я использовал две разные нейронные сети: left_branch = Input((7000, )) left_branch_dense = Dense(512, activation='relu')(left_branch)
Data Science
Вопрос или проблема Я делаю небольшой ПOC, в котором я обучил свою модель машинного обучения (Наивный Байес) и сохранил в формате “.pkl” (pickle). Теперь моя следующая задача — разработать веб-приложение, которое будет запрашивать у пользователя
Data Science
Вопрос или проблема У меня есть нейронная сеть NLP, которую я разработал с помощью Keras для многомаркерной классификации. Я несколько раз обучал модель и сохранял лучшие результаты (в соответствии с наилучшей оценкой точности проверки) после завершения каждого набора эпох.
Data Science
Вопрос или проблема Краткое введение: У меня есть отчет/абзац, в котором есть предложения, ссылающиеся на будущие планы/перспективы/ожидания для конкретного субъекта. Я хочу извлечь все такие предложения на данный момент. Проблема: Как идентифицировать
Data Science
Вопрос или проблема У меня есть набор данных, аналогичный newsgroup20, для классификации. С обучающим набором данных у меня есть набор данных словаря, который объясняет некоторые жаргоны в обучающем наборе данных. Эти два набора данных различны, так как
Программное обеспечение
Вопрос или проблема Одним из тех, что мы рассматривали ранее, является AeroText, но похоже, что он больше не существует как самостоятельный проект. Я думаю, что его можно написать на любом языке, поскольку нас интересует вывод (аннотированные сущности)
Data Science
Вопрос или проблема Я пытаюсь предсказать коды беременности с помощью базовой архитектуры трансформатора. Эти коды беременности выглядят следующим образом: prg001, prg002 до prg030. Prg001 будет означать пренатальный скрининг, а prg030 будет означать исход родов для матери.
Data Science
Вопрос или проблема В обработке естественного языка и вычислительной лингвистике какие методы считаются передовыми для извлечения похожих слов? Может кто-нибудь направить меня к этим ресурсам? Современные достижения в обнаружении синонимов склонны быть
Data Science
Вопрос или проблема У меня есть датафрейм, содержащий столбец типов профилей, который выглядит следующим образом: 0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript
Data Science
Вопрос или проблема Я строю модель NLP для предсказания типа языка (C/C++/C#/Python…) для данного кода. Теперь мне нужно предоставить объяснение для предсказания моей модели. Например, следующий пользовательский ввод написан на Java, и модель это
Data Science
Вопрос или проблема Я новичок в обработке естественного языка и хотел бы спросить, как я могу извлечь предложения из текста на основе ключевых слов, которые у меня есть, используя Python. Я создал список ключевых слов, которые будут использоваться для
Data Science
Вопрос или проблема Я изучаю tf-idf (частота термина – обратная частота документа). Исходная логика для tf была простой: количество термина t / общее количество терминов в документе. Однако я столкнулся с логарифмически шкалированной частотой: log(1
Data Science
Вопрос или проблема В GATE значения по умолчанию для ANNIE устанавливаются во время инициализации, но иногда в зависимости от требований их необходимо изменить. Мое требование : Я хочу извлекать английские предложения, не учитывая “
Data Science
Вопрос или проблема Мы донастраивали модель BERT (bert-base-uncased) с помощью набора данных CoLA для задачи классификации предложений. Набор данных представляет собой смесь предложений с грамматическими ошибками и без них. Донастроенная модель затем
Data Science
Вопрос или проблема Ошибка OOM возникает, даже когда я использую квантование и контроль градиентов во время тонкой настройки. Это мой блокнот для тонкой настройки на нескольких GPU. Он выдает ошибку памяти после 5 шагов обучения, я пробовал много вещей
Data Science
Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.
Data Science
Вопрос или проблема Я использую набор данных вопросов и ответов. Моя нейронная сеть принимает вопрос и содержание статьи и выводит, с какого места начинается ответ (в виде целого числа). Как мне визуализировать мои данные, как их обработать и какие графики использовать?
Data Science
Вопрос или проблема Для моей задачи мне нужна модель, которая может различать должности, содержащие одни и те же слова. Модель BERT “msmarco-MiniLM-L-12-v3” демонстрирует высокую косинусную схожесть для позиций: “
Data Science
Вопрос или проблема Архитектура RAG из оригинальной статьи Поскольку потеря рассчитывается на выходном слое генератора, как градиенты обратным распространением передаются в модель извлечения? Потому что вводом для генератора является чистый текст, то
Data Science
Вопрос или проблема Какой лучший способ справиться с набором данных, который имеет богатый словарный запас и низкую среднюю частоту слов, показывающий низкую точность валидации? Читая online, я увидел, что многие люди рекомендуют удалить стоп-слова и