nlp
Data Science
Вопрос или проблема В «Фламинго: визуальная языковая модель для обучения с небольшим количеством примеров» (Alayrac et al., 2022) https://arxiv.org/abs/2204.14198 DeepMind использует «обучаемые латентные запросы» в своем «Персевер ресемплере», чтобы гарантировать
Data Science
Вопрос или проблема В чисто образовательных целях моя цель – реализовать базовую архитектуру Transformer с нуля. До сих пор я сосредоточился на энкодере для классификационных задач и предположил, что все образцы в пакете имеют одинаковую длину.
Data Science
Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “
Data Science
Вопрос или проблема Чтобы проиллюстрировать вышеуказанный заголовок. Предположим, у вас есть pdf-документ, который в основном отсканирован с бумажной копии, теперь есть набор фиксированных вопросов, на которые нужно ответить из самого документа.
Data Science
Вопрос или проблема У меня есть набор данных о фильмах и их субтитрах. Моя задача – классифицировать их на основе их рейтингов – [R, NR, PG, PG-13, G]. У меня есть 13 примеров для каждого класса. Я предварительно обработал субтитры следующим
Data Science
Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.
Data Science
Вопрос или проблема Я разрабатываю систему рекомендаций, в которой каждый пользователь взаимодействует с сессиями (темами с заголовком и описанием). Я хочу представить каждого пользователя, используя их последние 5 взаимодействий сессиями, создавая вектор пользователя.
Data Science
Вопрос или проблема Модель CBOW на самом деле принимает несколько слов в качестве входных данных и одно целевое слово в качестве выходных данных.Таким образом, обученная модель фактически сопоставляет несколько слов с одним, то есть она принимает контекстные
Data Science
Вопрос или проблема Я новичок в области науки о данных и методов машинного обучения. Мне нужно построить модель, которая позволит мне классифицировать тексты на основе анализа настроений. Прямо сейчас у меня есть только текст, и они не имеют ни класса
Data Science
Вопрос или проблема Я начал работать с LLM в последнее время и хочу узнать, как люди выбирают свои предобученные модели для задач дообучения? Каковы критерии выбора базовой модели и какие факторы на это влияют? Их слишком много!
Data Science
Вопрос или проблема Я увидел инструмент labelme и задался вопросом, есть ли аналогичный инструмент для аннотирования коротких документов? Предпочтительно на Python. Существует много таких инструментов. Вот несколько самых популярных: ML-Annotate –
Data Science
Вопрос или проблема Я хотел бы создать тематическую модель содержимого поля “Заметки” в CRM. Таких записей несколько сотен. Чаще всего это не целые предложения, а просто комбинации слов (например, “клиент с конференции 2024 года в Цюрихе”
Data Science
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Вопрос или проблема Я пытаюсь разбить на токены предложения документа для анализа аспектов на основе тональности. Есть некоторые предложения, которые состоят из более чем одной темы. Вот несколько примеров: “Сенсорный экран хороший, но аккумулятор слабый”
Data Science
Вопрос или проблема Я новичок в многошаговой текстовой классификации с использованием глубокого обучения. У меня есть данные, подобные этим: parent_pid domain_tld category_dz description_en 0 1000714377 douglas_de Макияж > Лицо >
Программное обеспечение
Вопрос или проблема Я ищу услугу или продукт, локально или в облаке, бесплатные или коммерческие, которые позволяют создать и запустить эквивалент чат-бота, но для электронной почты. Более формально, я ищу программное обеспечение, которое поддерживает
Data Science
Вопрос или проблема Я пытаюсь создать модель NER, которая может называть сущности в “Описание работы”. Сущности: Обязательные навыки (Обязательные навыки, такие как java, python, c++ и т.д.) Желательные навыки (кандидат “
Data Science
Вопрос или проблема У меня есть набор данных онлайн-отзывов (X) с соответствующими темами (тема1 до тема5), и каждая тема может иметь 5 значений (подробная оценка настроений от 1 до 5). Итак, у меня есть один X и 5 Y колонок. Я хотел бы узнать, как я
Data Science
Вопрос или проблема Я разрабатываю инструмент, который должен извлекать интересующие значения из неструктурированных текстовых записей. Набор данных состоит из несколько сотен тысяч медицинских записей. Каждая запись относительно короткая (около 100 символов).
Data Science
Вопрос или проблема У меня есть концептуальная проблема, связанная с проектом, над которым я работаю. Я относительно новичок в области NLP, так что этот вопрос может показаться неуместным, но я был бы очень признателен за любую помощь.