nlp - ответы на вопросы - Page 7 of 13

Data Science

Суммаризация текста с ограниченным количеством слов

00

Вопрос или проблема Я изучаю техники суммирования и пока не нашел подход, чтобы ограничить длину резюме. Например, мне нужна функция суммирования, которая дает мне резюме длиной < 500 слов. Можете ли вы направить меня в правильном направлении?

Data Science

Векторное представление документов для классификации текста

00

Вопрос или проблема Я ищу правильный метод встраивания документов. Я знаю, что doc2vec даст мне векторные представления для данного корпуса, но как мне встраивать новые документы? Мне нужно обучить нейронную сеть, которая будет классифицировать текст

Data Science

Объяснение модели FastText

00

Вопрос или проблема Я читал статью FastText и у меня есть несколько вопросов по модели, используемой для классификации. Поскольку я не из области NLP, я не знаком с некоторым жаргоном. На рисунке что именно представляют собой $x_i$?

Data Science

МОДЕЛЬ LLAMA БЕЗ ИСПОЛЬЗОВАНИЯ API HUGGINGFACE

00

Вопрос или проблема Возможно ли получить модель Llama отдельно в виде исходного кода с открытым доступом, не используя API Huggingface, чтобы разместить её на нашем сервере? Лицензия для Llama здесь https://huggingface.co/decapoda-research/llama-7b-hf/blob/main/LICENSE

Data Science

Bertopic с встраиванием: не удается использовать find_topic

00

Вопрос или проблема Я успешно использовал BERTopic для следующих задач: получение тем, визуализация (тем, столбчатых диаграмм, документов …) и DTM (расширенный для получения графика области с существенным успехом). Тем не менее, я не могу использовать функцию find_topics().

Data Science

Как использовать несколько адаптеров с предобученной моделью в Hugging Face Transformers для вывода?

00

Вопрос или проблема У меня есть предобученная модель Llama-2 в директории models_hf и два адаптера с дообучением: адаптер для обобщения в ./tmp/llama-output и чат-адаптер в ./tmp/chat_adapter. Подробности кода находятся в другом вопросе.

Data Science

Как мне сгруппировать похожие виды навыков вместе?

00

Вопрос или проблема Предположим, что у меня есть файл, в котором содержатся тысячи навыков от A до Z. Теперь я хотел бы создать модель, которая сможет группировать похожие навыки вместе (например, нейронная сеть и SVM могут группировать вместе).

Data Science

Как передавать входные данные в модели глубокого обучения для задачи ответа на множественный выбор?

00

Вопрос или проблема В настоящее время я работаю над системой ответов на вопросы с множественным выбором. Обучающая выборка состоит из вопроса, ответа и 4 вариантов, и мне нужно предсказать правильный ответ среди 4 вариантов. Иногда есть и один абзац, например: 1.

Data Science

Определите тот же продукт

00

Вопрос или проблема Я новичок в машинном обучении и все еще его изучаю. Моя проблема заключается в идентификации дублирующихся продуктов. У меня есть датасет, содержащий детали продуктов, такие как название, цвет, размер, описание, характеристики и т.

Data Science

Бинарная классификация текста с помощью SpaCy

01

Вопрос или проблема У меня есть набор данных из двух папок. Одна из них содержит документы (текст, PDF), связанные с личной информацией (например, имя, электронная почта, адрес и т. д.), другая содержит неперсонализированную информацию.

Data Science

Обучение макета страницы документа и классификация хороших/плохих макетов

00

Вопрос или проблема У меня есть случай использования, в котором мне нужно получить координаты каждого блочного элемента на странице (будь то параграф, изображение, таблица), где я обучаю модель, чтобы понять, как они располагаются на данной странице

Вопросы и ответы

Оллама с RAG чат с PDF

02

Вопрос или проблема В настоящее время я пытаюсь создать чат-бота с помощью Ollama с RAG для чтения PDF в качестве ссылки. Однако я сталкиваюсь с проблемой, когда ответы чат-бота содержат информацию из PDF, даже когда я не задаю вопросы, связанные с PDF.

Data Science

обучить NER с использованием NLTK с пользовательскими корпусами (неанглийскими) необходимо использовать StanfordNER?

00

Вопрос или проблема Я искал информацию о настройке NER корпусов для обучения модели с использованием библиотеки NLTK из Python, но все ответы ссылаются на глава 7 книги NLTK и, честно говоря, это меня путает, как правильно обучить корпус с правильным

Data Science

Минимальное количество признаков для модели наивного Байеса

00

Вопрос или проблема Я продолжаю читать, что Наивный Байес требует меньше признаков, чем многие другие алгоритмы машинного обучения. Но каково минимальное количество признаков, которое вам на самом деле нужно, чтобы получить хорошие результаты (90% точности)

Data Science

Метрика оценки для системы рекомендаций

00

Вопрос или проблема Я работаю над проектом, связанным с созданием системы рекомендации новостей. Я дошел до того, что количественно оценил взаимодействие пользователей с различными статьями на сайте, используя байесовскую функцию для определения склонности

Data Science

В механизме внимания почему мы не нормализуем после умножения значений?

00

Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается

Data Science

Неясно относительно смещения относительной позиции.

00

Вопрос или проблема Я читал статью о Swin Transformer и наткнулся на концепцию относительного позиционного смещения. Я не могу понять, почему это более эффективно, чем позиционные эмбеддинги. Надеюсь, кто-то сможет объяснить это интуитивно. Заранее спасибо!

Data Science

Использование KerasClassifier для обучения нейронной сети

00

Вопрос или проблема Я создал простую нейронную сеть для бинарной классификации текста (спам/неспам) с использованием предобученного трансформера BERT. Текущая реализация на чистом Keras работает нормально. Однако я хотел построить график некоторых метрик

Data Science

Хорошая производительность во время оценки, но плохая производительность во время вывода.

00

Вопрос или проблема Я новичок. Я попытался предварительно обучить и внедрить JPEG-LM с нуля с использованием Llama-2. Код можно найти здесь. Во время оценки и обучения он возвращает высокую точность, что может указывать на переобучение.

Data Science

Как реализовать теггер частей речи, используя концепции совместного вхождения слов и кластеризации?

00

Вопрос или проблема Я подумываю о том, чтобы реализовать теггер частей речи самостоятельно. Теггер частей речи извлекает синтаксическую роль слова в предложении. Согласно моим исследованиям, сопоставление слов — это техника для анализа их совпадений