nlp
Data Science
Вопрос или проблема Я пытаюсь сделать проект, для которого мне нужен огромный корпус по праву дорожного движения ЕС, в частности по ограничениям скорости, знакам, общим правилам, правонарушениям, штрафам. Я нашел ресурсы, такие как Eur-lex, Европейская комиссия и т.
Data Science
Вопрос или проблема Я новичок в моделях на основе внимания и хотел узнать больше о маске внимания в моделях НЛП. attention_mask: необязательный torch.LongTensor формы [batch_size, sequence_length], с индексами, выбранными из [0, 1].
Data Science
Вопрос или проблема Сначала позвольте мне установить, что такое CBoW и skip-gram. Вы можете пропустить этот раздел, если считаете его ненужным. Фон Мое понимание состоит в том, что Word2Vec представляет собой набор из двух алгоритмов: непрерывный мешок
Data Science
Вопрос или проблема Я ищу инструменты (возможно, в NLTK) или статьи, которые говорят о следующем: например. Ввод: Vase(Subject1) put(verb) Ответ, который я ищу: flower, water Существует ли инструмент, который может выдать субъекты (объекты), которые могут
Data Science
Вопрос или проблема Я изучаю техники суммирования и пока не нашел подход, чтобы ограничить длину резюме. Например, мне нужна функция суммирования, которая дает мне резюме длиной < 500 слов. Можете ли вы направить меня в правильном направлении?
Data Science
Вопрос или проблема Я ищу правильный метод встраивания документов. Я знаю, что doc2vec даст мне векторные представления для данного корпуса, но как мне встраивать новые документы? Мне нужно обучить нейронную сеть, которая будет классифицировать текст
Data Science
Вопрос или проблема Я читал статью FastText и у меня есть несколько вопросов по модели, используемой для классификации. Поскольку я не из области NLP, я не знаком с некоторым жаргоном. На рисунке что именно представляют собой $x_i$?
Data Science
Вопрос или проблема Возможно ли получить модель Llama отдельно в виде исходного кода с открытым доступом, не используя API Huggingface, чтобы разместить её на нашем сервере? Лицензия для Llama здесь https://huggingface.co/decapoda-research/llama-7b-hf/blob/main/LICENSE
Data Science
Вопрос или проблема Я успешно использовал BERTopic для следующих задач: получение тем, визуализация (тем, столбчатых диаграмм, документов …) и DTM (расширенный для получения графика области с существенным успехом). Тем не менее, я не могу использовать функцию find_topics().
Data Science
Как использовать несколько адаптеров с предобученной моделью в Hugging Face Transformers для вывода?
Вопрос или проблема У меня есть предобученная модель Llama-2 в директории models_hf и два адаптера с дообучением: адаптер для обобщения в ./tmp/llama-output и чат-адаптер в ./tmp/chat_adapter. Подробности кода находятся в другом вопросе.
Data Science
Вопрос или проблема Предположим, что у меня есть файл, в котором содержатся тысячи навыков от A до Z. Теперь я хотел бы создать модель, которая сможет группировать похожие навыки вместе (например, нейронная сеть и SVM могут группировать вместе).
Data Science
Вопрос или проблема В настоящее время я работаю над системой ответов на вопросы с множественным выбором. Обучающая выборка состоит из вопроса, ответа и 4 вариантов, и мне нужно предсказать правильный ответ среди 4 вариантов. Иногда есть и один абзац, например: 1.
Data Science
Вопрос или проблема Я новичок в машинном обучении и все еще его изучаю. Моя проблема заключается в идентификации дублирующихся продуктов. У меня есть датасет, содержащий детали продуктов, такие как название, цвет, размер, описание, характеристики и т.
Data Science
Вопрос или проблема У меня есть набор данных из двух папок. Одна из них содержит документы (текст, PDF), связанные с личной информацией (например, имя, электронная почта, адрес и т. д.), другая содержит неперсонализированную информацию.
Data Science
Вопрос или проблема У меня есть случай использования, в котором мне нужно получить координаты каждого блочного элемента на странице (будь то параграф, изображение, таблица), где я обучаю модель, чтобы понять, как они располагаются на данной странице
Вопросы и ответы
Вопрос или проблема В настоящее время я пытаюсь создать чат-бота с помощью Ollama с RAG для чтения PDF в качестве ссылки. Однако я сталкиваюсь с проблемой, когда ответы чат-бота содержат информацию из PDF, даже когда я не задаю вопросы, связанные с PDF.
Data Science
Вопрос или проблема Я искал информацию о настройке NER корпусов для обучения модели с использованием библиотеки NLTK из Python, но все ответы ссылаются на глава 7 книги NLTK и, честно говоря, это меня путает, как правильно обучить корпус с правильным
Data Science
Вопрос или проблема Я продолжаю читать, что Наивный Байес требует меньше признаков, чем многие другие алгоритмы машинного обучения. Но каково минимальное количество признаков, которое вам на самом деле нужно, чтобы получить хорошие результаты (90% точности)
Data Science
Вопрос или проблема Я работаю над проектом, связанным с созданием системы рекомендации новостей. Я дошел до того, что количественно оценил взаимодействие пользователей с различными статьями на сайте, используя байесовскую функцию для определения склонности
Data Science
Вопрос или проблема Как говорит этот вопрос: В масштабированном внимании на основе скалярного произведения мы масштабируем наши выходные значения, деля скалярное произведение на квадратный корень из размерности матрицы: Причина, по которой это делается