finetuning - ответы на вопросы

Data Science

Тонкая настройка LLAMA для небольших наборов данных

00

Вопрос или проблема Я ищу способ настроить модель LLAMA для ответов на определенные вопросы. В настоящее время база знаний, из которой должны быть даны ответы, небольшая, поэтому я могу предоставить её как контекст и попросить LLAMA ответить на вопросы на его основе.

Data Science

Трансферное обучение для извлечения именованных сущностей (NER)

00

Вопрос или проблема Есть ли у кого-нибудь опыт дообучения модели NER на данных вне домена? Удалось ли дообучение, и какое примерно количество данных понадобилось? Для уточнения: например, начальная модель NER для идентификации персон и локаций, и дообучение

Data Science

Тонкая настройка GPT на данных эскизов (штрих-3)

00

Вопрос или проблема В эти последние дни я начал личный проект, в рамках которого хотел бы создать модель, которая, получив незавершенный эскиз, сможет его закончить. Я планировал использовать некоторые предварительно обученные модели, доступные в HuggingFace

Data Science

Как дополнительно настроить трансформерную NLP-модель на специфическом для области наборе данных после общей настройки.

00

Вопрос или проблема Я хотел бы донастроить предварительно обученную модель типа BERT для задачи анализа семантического сходства в манере задачи SNLI/MNLI (т.е. классифицировать пары предложений на «заключение» или «противоречие»).

Data Science

Настроить модель классификации без примеров для многолейблового обозначения

00

Вопрос или проблема Я начал небольшой проект, в котором пытаюсь дообучить модель для классификации с нулевым обучением на собственном наборе данных. Я думал использовать подход NLI, создавая противоречащие и подтверждающие утверждения для каждой пары

Data Science

Тонкая настройка LLM с ограниченным количеством документов и иерархией

00

Вопрос или проблема Привет, энтузиасты LLM. Интересно, есть ли современные подходы к тонкой настройке модели в соседнем проекте, если: область документов ограничена (но больше, чем просто несколько), эти документы регулярно имеют взаимосвязи.

Data Science

Ошибка OOM при тонкой настройке

00

Вопрос или проблема Ошибка OOM возникает, даже когда я использую квантование и контроль градиентов во время тонкой настройки. Это мой блокнот для тонкой настройки на нескольких GPU. Он выдает ошибку памяти после 5 шагов обучения, я пробовал много вещей

Data Science

Несовместимые формы (None, 1) и (None, 5) с тонкой настройкой Keras VGGFace

00

Вопрос или проблема Категории для учебы и предсказания: df.race.unique() array(['0', '1', '3', '2', '4'], dtype=object) Данные: train_generator = image_gen.flow_from_dataframe( df_train, x_col="img_name", y_col="race", directory=str(data_folder), class_mode="sparse"

Data Science

Могу ли я добавить новый выходной класс в декодер и обучить только последний слой?

00

Вопрос или проблема Я задумываюсь, как подойти к проекту, где я хотел бы увеличить количество выходных классов уже обученной сети. У меня есть очень веские основания полагать, что модель уже усвоила соответствующую информацию, чтобы предсказать этот новый

Data Science

Как настроить GPT-J с небольшим набором данных

00

Вопрос или проблема Во-первых, большое спасибо за то, что вы посмотрели этот пост. Мне действительно нужна помощь. Я следовал этому руководству настолько близко, насколько это возможно: https://github.com/kingoflolz/mesh-transformer-jax Я пытаюсь дообучить

Data Science

Как выбрать идеальную предварительно обученную модель для тонкой настройки?

00

Вопрос или проблема Я начал работать с LLM в последнее время и хочу узнать, как люди выбирают свои предобученные модели для задач дообучения? Каковы критерии выбора базовой модели и какие факторы на это влияют? Их слишком много!

Data Science

Как использовать новый набор данных на предобученной модели нейронной сети?

00

Вопрос или проблема Я собрал набор данных, который хотел бы передать предобученной модели для выполнения некоторых прогнозов. Я ищу несколько шагов/процессов, которые могли бы направить меня в этом. Должен ли я дообучить? Если да, то что именно нужно дообучить?

Data Science

Проблемы в настройке моделей OCR с использованием пользовательских наборов данных

00

Вопрос или проблема Я экспериментировал с дообучением моделей OCR, используя собственный набор данных, в частности с фреймворками doctr и PaddleOCR. Моя цель – улучшить точность распознавания, особенно на документах, которые претерпели различные изменения.

Data Science

Понимание настройки параметра альфа в статье LORA

01

Вопрос или проблема Я читал статью о LORA https://arxiv.org/pdf/2106.09685.pdf, и одна вещь, которую я не понимаю, это раздел 4.1, где обновления изменяются с помощью альфа, где альфа – это константа в r. Говорится, что альфа устанавливается на

Data Science

Тренируйтесь на нескольких доменах, затем донастройтесь на конкретном домене.

00

Вопрос или проблема Имеет ли смысл сначала обучить модель на изображениях из нескольких доменов, а затем провести “тонкую настройку” на одном конкретном домене, чтобы улучшить ее производительность на этом домене? Например, можно обучить детектор

Data Science

Расчет стоимости модели Gemini 1.0 Pro

00

Вопрос или проблема Представьте, что вы готовитесь к тонкой настройке модели Gemini. Пока вы планируете, вы начинаете задумываться о различных расходах, которые вам нужно будет учесть. Вы знаете, что ценообразование Gemini часто подчеркивает расходы

Data Science

Почему не использовать линейную регрессию для дообучения последнего слоя нейронной сети?

00

Вопрос или проблема В трансферном обучении часто лишь последний слой сети перенастраивается с использованием градиентного спуска. Однако последний слой обычной нейронной сети выполняет только линейное преобразование, так почему мы используем градиентный

Data Science

Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)

00

Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?

Data Science

Помнит ли GPT-3 данные из подсказок, использованных для его дообучения?

00

Вопрос или проблема Я пытаюсь дообучить модель, используя API дообучения OpenAI. Я передаю тексты (например, статьи из газет) в качестве подсказок и данные, которые хочу получить, в качестве завершений. Рассмотрим следующее: если статья из газеты, которую