nlp - ответы на вопросы - Page 4 of 13

Data Science

Почему мы хотим максимизировать среднюю логарифмическую вероятность в нейронных языковых моделях?

00

Вопрос или проблема В настоящее время я пытаюсь понять фреймворк Paragraph Vector, читая статью “Распределенное представление предложений и документов” автора Куока Ле и Томаса Миколова, но у меня возникают трудности с пониманием формального

Data Science

Определите самые важные документы для контролируемого обучения.

00

Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает

Data Science

Взвешивание слов в анализе сентиментов на основе лексикона

00

Вопрос или проблема Я пытаюсь провести анализ сентимента на основе лексикона по своим данным, где я вычисляю оценку сентимента следующим образом: $$ Оценка = \frac{\sum_{i}{word_i}}{\mid words \mid} $$ Таким образом, в зависимости от оценки слово будет

Data Science

Что делать, если у меня очень низкий показатель по одному из классов в многоклассовой классификации?

00

Вопрос или проблема Я обучил мультимодальный текстовый классификатор с использованием fasttext. У меня очень низкий показатель по одному из классов. Вот результаты метрик для каждого класса на тестовых данных: precision recall f1-score support class1 0.

Data Science

Проблема с распознаванием сарказма

00

Вопрос или проблема Я работаю с набором данных Reddit для обнаружения сарказма, но саркастические данные (1) показывают ноль процентов полноты, точности и достоверности, в то время как несаркастические показывают 100% полноты и 50% точности.

Data Science

как работать с NLP и другими функциями

00

Вопрос или проблема Мой набор данных выглядит следующим образом Тип_Спорта Город Текст_Отчета Метки Мяч Торонто Месси был объявлен лучшим футбольным игроком... Футбол Плавание Лондон Новые рекорды сегодня в баттерфляе и на спине.

Data Science

Проблема с сверточным слоем в Python: получение всех нулей на выходе и завершение на определенной итерации

00

Вопрос или проблема В настоящее время я работаю над реализацией свёрточного слоя на Python для модели обработки естественного языка. Однако я столкнулся с проблемой в свёрточном слое, которую не могу решить. Проблема состоит из двух частей: Получение

Data Science

Литература по выбору конкретных измерений в векторе встраивания слов

00

Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных

Data Science

Какова основная концепция использования лексического, лингвистического, семантического или синтаксического подхода в обработке естественного языка для борьбы с кибербуллингом?

00

Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее

Data Science

Создайте кластеры на основе конкретных ключевых слов.

00

Вопрос или проблема Я работаю с сырыми текстовыми данными. Я использую кластеризацию, чтобы объединить общие слова в документах. Моя задача заключается в том, чтобы создать кластеры на основе конкретного списка слов, т.е. я хочу получить группу слов

Data Science

Используя относительные или абсолютные частоты для оценки различий между группами в текстах

00

Вопрос или проблема Моя цель заключается в том, чтобы оценить различия в том, как пять политических партий используют моральные слова в своих твитах и речах. С этой целью я использую словарь, который применяю к каждому тексту твита / аудиотранскрипции

Data Science

Завершите венгерский корень до настоящего слова.

00

Вопрос или проблема Я довольно новичок в пакете NLTK для Python и в NLP тоже (обычно я работаю в R, но для целей NLP и парсинга, возможно, Python более подходит). Я собираю статьи с венгерских новостных порталов и хочу создать облако слов, чтобы показать

Data Science

Как можно использовать TransformerXL для классификации текста?

02

Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому

Data Science

Частая дообучаемость на новых данных может привести к переобучению?

00

Вопрос или проблема У меня есть модель бинарной классификации, которую я обучил на обучающем наборе. На валидационном наборе ее точность составляет примерно 85%. Я настроил раннее остановку, которая завершила обучение, когда потери на валидации увеличились.

Data Science

Как использовать текст в качестве входных данных для нейронной сети – задача регрессии? Сколько лайков/апплодисментов получит статья?

00

Вопрос или проблема Я пытаюсь предсказать количество лайков, которые статья или пост получит, используя нейронную сеть. У меня есть датафрейм с ~70,000 строк и 2 столбцами: “text” (предиктор – строки текста) и “

Data Science

Ищу набор данных о причинно-следственной связи.

00

Вопрос или проблема Я ищу набор данных о причинно-следственных связях, который выглядел бы так: животное + машина -> авария превышение скорости -> штраф за нарушение ПДД помидоры + салат -> салат вирус -> болезнь кариес ->

Data Science

найти биграмы в pandas

00

Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.

Data Science

Существует ли способ ранжировать извлеченные именованные сущности на основе их важности/частоты в документе?

00

Вопрос или проблема Ищете способ ранжирования десятков и сотен именованных сущностей, присутствующих в любом документе, по их важности/релевантности в контексте. Есть какие-нибудь мысли? Заранее спасибо! Простой способ –

Data Science

Мультиклассовый набор данных с множеством признаков, приводящий к плохой точности предсказаний.

00

Вопрос или проблема Я пытался это исправить в течение 2 месяцев, но без успеха. Я провожу медицинское исследование для своей учебы. У меня есть набор данных, в котором указаны диагнозы пациентов на основе медицинских отчетов (Features.

Data Science

Какой “двоичный выбор” существует в BM25?

00

Вопрос или проблема Я читал Главу 14 Ответы на вопросы, Поиск информации и RAG книги Юрафски, конкретно раздел о оценке документов, где упоминался Okapi BM25. Я понял предыдущее вычисление и объяснение tf-idf, но не понимаю эту фразу, выделенную магентовым цветом. …