nlp - ответы на вопросы - Page 5 of 13

Data Science

Как на самом деле рассчитываются обученные латентные массивы для перцептивного ресемплера в модели “Визуально-языковой модели Flamingo” DeepMind? Какая техника используется?

00

Вопрос или проблема В «Фламинго: визуальная языковая модель для обучения с небольшим количеством примеров» (Alayrac et al., 2022) https://arxiv.org/abs/2204.14198 DeepMind использует «обучаемые латентные запросы» в своем «Персевер ресемплере», чтобы гарантировать

Data Science

Как учитывается маскирование отступов в головах внимания трансформера?

00

Вопрос или проблема В чисто образовательных целях моя цель – реализовать базовую архитектуру Transformer с нуля. До сих пор я сосредоточился на энкодере для классификационных задач и предположил, что все образцы в пакете имеют одинаковую длину.

Data Science

Существует ли способ обучить Doc2Vec на корпусе документов и иметь возможность взять новый документ и увидеть, насколько он похож на обученный корпус?

00

Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “

Data Science

Как извлечь текст из PDF для дальнейшей работы с моделью вопрос-ответ на основе того же документа?

00

Вопрос или проблема Чтобы проиллюстрировать вышеуказанный заголовок. Предположим, у вас есть pdf-документ, который в основном отсканирован с бумажной копии, теперь есть набор фиксированных вопросов, на которые нужно ответить из самого документа.

Data Science

точность теста классификации текста слишком низкая

00

Вопрос или проблема У меня есть набор данных о фильмах и их субтитрах. Моя задача – классифицировать их на основе их рейтингов – [R, NR, PG, PG-13, G]. У меня есть 13 примеров для каждого класса. Я предварительно обработал субтитры следующим

Data Science

Моделирование тем на длинных документах: сначала кластеризация внутри документа

00

Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.

Data Science

Объедините несколько эмбеддингов для создания пользовательского представления.

01

Вопрос или проблема Я разрабатываю систему рекомендаций, в которой каждый пользователь взаимодействует с сессиями (темами с заголовком и описанием). Я хочу представить каждого пользователя, используя их последние 5 взаимодействий сессиями, создавая вектор пользователя.

Data Science

Как модель CBoW преобразует слово в вектор?

00

Вопрос или проблема Модель CBOW на самом деле принимает несколько слов в качестве входных данных и одно целевое слово в качестве выходных данных.Таким образом, обученная модель фактически сопоставляет несколько слов с одним, то есть она принимает контекстные

Data Science

Создание модели классификации текста с нуля

00

Вопрос или проблема Я новичок в области науки о данных и методов машинного обучения. Мне нужно построить модель, которая позволит мне классифицировать тексты на основе анализа настроений. Прямо сейчас у меня есть только текст, и они не имеют ни класса

Data Science

Как выбрать идеальную предварительно обученную модель для тонкой настройки?

00

Вопрос или проблема Я начал работать с LLM в последнее время и хочу узнать, как люди выбирают свои предобученные модели для задач дообучения? Каковы критерии выбора базовой модели и какие факторы на это влияют? Их слишком много!

Data Science

Существуют ли инструменты для ускорения разметки текста?

00

Вопрос или проблема Я увидел инструмент labelme и задался вопросом, есть ли аналогичный инструмент для аннотирования коротких документов? Предпочтительно на Python. Существует много таких инструментов. Вот несколько самых популярных: ML-Annotate –

Data Science

Возможно ли использовать BERTopic на данных, не основанных на предложениях?

00

Вопрос или проблема Я хотел бы создать тематическую модель содержимого поля “Заметки” в CRM. Таких записей несколько сотен. Чаще всего это не целые предложения, а просто комбинации слов (например, “клиент с конференции 2024 года в Цюрихе”

Data Science

Корпус компьютерных наук для обучения языковой модели

00

Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?

Data Science

Токенизация составных и сложносочинённых предложений

00

Вопрос или проблема Я пытаюсь разбить на токены предложения документа для анализа аспектов на основе тональности. Есть некоторые предложения, которые состоят из более чем одной темы. Вот несколько примеров: “Сенсорный экран хороший, но аккумулятор слабый”

Data Science

Как выполнять многометочное классифицирование текста с использованием глубокого обучения

00

Вопрос или проблема Я новичок в многошаговой текстовой классификации с использованием глубокого обучения. У меня есть данные, подобные этим: parent_pid domain_tld category_dz description_en 0 1000714377 douglas_de Макияж > Лицо >

Программное обеспечение

Продукт разговорного агента для автоматизации электронной почты.

00

Вопрос или проблема Я ищу услугу или продукт, локально или в облаке, бесплатные или коммерческие, которые позволяют создать и запустить эквивалент чат-бота, но для электронной почты. Более формально, я ищу программное обеспечение, которое поддерживает

Data Science

Геуристики для предсказания модели NER

00

Вопрос или проблема Я пытаюсь создать модель NER, которая может называть сущности в “Описание работы”. Сущности: Обязательные навыки (Обязательные навыки, такие как java, python, c++ и т.д.) Желательные навыки (кандидат “

Data Science

Анализ настроений на основе аспектов с использованием Bert и Pytorch

00

Вопрос или проблема У меня есть набор данных онлайн-отзывов (X) с соответствующими темами (тема1 до тема5), и каждая тема может иметь 5 значений (подробная оценка настроений от 1 до 5). Итак, у меня есть один X и 5 Y колонок. Я хотел бы узнать, как я

Data Science

Как извлекать значения из неструктурированного текста

00

Вопрос или проблема Я разрабатываю инструмент, который должен извлекать интересующие значения из неструктурированных текстовых записей. Набор данных состоит из несколько сотен тысяч медицинских записей. Каждая запись относительно короткая (около 100 символов).

Data Science

Обновление модели LDA генизма с новыми документами и темами

00

Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.