nlp
Data Science
Вопрос или проблема В настоящее время я пытаюсь понять фреймворк Paragraph Vector, читая статью “Распределенное представление предложений и документов” автора Куока Ле и Томаса Миколова, но у меня возникают трудности с пониманием формального
Data Science
Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает
Data Science
Вопрос или проблема Я пытаюсь провести анализ сентимента на основе лексикона по своим данным, где я вычисляю оценку сентимента следующим образом: $$ Оценка = \frac{\sum_{i}{word_i}}{\mid words \mid} $$ Таким образом, в зависимости от оценки слово будет
Data Science
Что делать, если у меня очень низкий показатель по одному из классов в многоклассовой классификации?
Вопрос или проблема Я обучил мультимодальный текстовый классификатор с использованием fasttext. У меня очень низкий показатель по одному из классов. Вот результаты метрик для каждого класса на тестовых данных: precision recall f1-score support class1 0.
Data Science
Вопрос или проблема Я работаю с набором данных Reddit для обнаружения сарказма, но саркастические данные (1) показывают ноль процентов полноты, точности и достоверности, в то время как несаркастические показывают 100% полноты и 50% точности.
Data Science
Вопрос или проблема Мой набор данных выглядит следующим образом Тип_Спорта Город Текст_Отчета Метки Мяч Торонто Месси был объявлен лучшим футбольным игроком... Футбол Плавание Лондон Новые рекорды сегодня в баттерфляе и на спине.
Data Science
Вопрос или проблема В настоящее время я работаю над реализацией свёрточного слоя на Python для модели обработки естественного языка. Однако я столкнулся с проблемой в свёрточном слое, которую не могу решить. Проблема состоит из двух частей: Получение
Data Science
Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных
Data Science
Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее
Data Science
Вопрос или проблема Я работаю с сырыми текстовыми данными. Я использую кластеризацию, чтобы объединить общие слова в документах. Моя задача заключается в том, чтобы создать кластеры на основе конкретного списка слов, т.е. я хочу получить группу слов
Data Science
Вопрос или проблема Моя цель заключается в том, чтобы оценить различия в том, как пять политических партий используют моральные слова в своих твитах и речах. С этой целью я использую словарь, который применяю к каждому тексту твита / аудиотранскрипции
Data Science
Вопрос или проблема Я довольно новичок в пакете NLTK для Python и в NLP тоже (обычно я работаю в R, но для целей NLP и парсинга, возможно, Python более подходит). Я собираю статьи с венгерских новостных порталов и хочу создать облако слов, чтобы показать
Data Science
Вопрос или проблема Для нормального трансформера только с кодировщиком, такого как BERT, я знаю, что мы можем добавить токен CLS к входным данным, который “агрегирует” информацию из всех других токенов. Затем мы можем прикрепить MLP к этому
Data Science
Вопрос или проблема У меня есть модель бинарной классификации, которую я обучил на обучающем наборе. На валидационном наборе ее точность составляет примерно 85%. Я настроил раннее остановку, которая завершила обучение, когда потери на валидации увеличились.
Data Science
Вопрос или проблема Я пытаюсь предсказать количество лайков, которые статья или пост получит, используя нейронную сеть. У меня есть датафрейм с ~70,000 строк и 2 столбцами: “text” (предиктор – строки текста) и “
Data Science
Вопрос или проблема Я ищу набор данных о причинно-следственных связях, который выглядел бы так: животное + машина -> авария превышение скорости -> штраф за нарушение ПДД помидоры + салат -> салат вирус -> болезнь кариес ->
Data Science
Вопрос или проблема У меня есть DataFrame с 4 колонками: ‘Заголовок’, ‘Body_ID’, ‘Сторона’, ‘articleBody’, где ‘Заголовок’ и ‘articleBody’ содержат очищенные и токенизированные слова.
Data Science
Вопрос или проблема Ищете способ ранжирования десятков и сотен именованных сущностей, присутствующих в любом документе, по их важности/релевантности в контексте. Есть какие-нибудь мысли? Заранее спасибо! Простой способ –
Data Science
Вопрос или проблема Я пытался это исправить в течение 2 месяцев, но без успеха. Я провожу медицинское исследование для своей учебы. У меня есть набор данных, в котором указаны диагнозы пациентов на основе медицинских отчетов (Features.
Data Science
Вопрос или проблема Я читал Главу 14 Ответы на вопросы, Поиск информации и RAG книги Юрафски, конкретно раздел о оценке документов, где упоминался Okapi BM25. Я понял предыдущее вычисление и объяснение tf-idf, но не понимаю эту фразу, выделенную магентовым цветом. …