Data Science
Тонкая настройка GPT на данных эскизов (штрих-3)
00
Вопрос или проблема В эти последние дни я начал личный проект, в рамках которого хотел бы создать модель, которая, получив незавершенный эскиз, сможет его закончить. Я планировал использовать некоторые предварительно обученные модели, доступные в HuggingFace
Data Science
Как дополнительно настроить трансформерную NLP-модель на специфическом для области наборе данных после общей настройки.
00
Вопрос или проблема Я хотел бы донастроить предварительно обученную модель типа BERT для задачи анализа семантического сходства в манере задачи SNLI/MNLI (т.е. классифицировать пары предложений на «заключение» или «противоречие»).
Data Science
Настроить модель классификации без примеров для многолейблового обозначения
00
Вопрос или проблема Я начал небольшой проект, в котором пытаюсь дообучить модель для классификации с нулевым обучением на собственном наборе данных. Я думал использовать подход NLI, создавая противоречащие и подтверждающие утверждения для каждой пары
Data Science
Тонкая настройка LLM с ограниченным количеством документов и иерархией
00
Вопрос или проблема Привет, энтузиасты LLM. Интересно, есть ли современные подходы к тонкой настройке модели в соседнем проекте, если: область документов ограничена (но больше, чем просто несколько), эти документы регулярно имеют взаимосвязи.
Data Science
Ошибка OOM при тонкой настройке
00
Вопрос или проблема Ошибка OOM возникает, даже когда я использую квантование и контроль градиентов во время тонкой настройки. Это мой блокнот для тонкой настройки на нескольких GPU. Он выдает ошибку памяти после 5 шагов обучения, я пробовал много вещей
Data Science
Несовместимые формы (None, 1) и (None, 5) с тонкой настройкой Keras VGGFace
00
Вопрос или проблема Категории для учебы и предсказания: df.race.unique() array(['0', '1', '3', '2', '4'], dtype=object) Данные: train_generator = image_gen.flow_from_dataframe( df_train, x_col="img_name", y_col="race", directory=str(data_folder), class_mode="sparse"
Data Science
Могу ли я добавить новый выходной класс в декодер и обучить только последний слой?
00
Вопрос или проблема Я задумываюсь, как подойти к проекту, где я хотел бы увеличить количество выходных классов уже обученной сети. У меня есть очень веские основания полагать, что модель уже усвоила соответствующую информацию, чтобы предсказать этот новый
Data Science
Как настроить GPT-J с небольшим набором данных
00
Вопрос или проблема Во-первых, большое спасибо за то, что вы посмотрели этот пост. Мне действительно нужна помощь. Я следовал этому руководству настолько близко, насколько это возможно: https://github.com/kingoflolz/mesh-transformer-jax Я пытаюсь дообучить
Data Science
Как выбрать идеальную предварительно обученную модель для тонкой настройки?
00
Вопрос или проблема Я начал работать с LLM в последнее время и хочу узнать, как люди выбирают свои предобученные модели для задач дообучения? Каковы критерии выбора базовой модели и какие факторы на это влияют? Их слишком много!
Data Science
Как использовать новый набор данных на предобученной модели нейронной сети?
00
Вопрос или проблема Я собрал набор данных, который хотел бы передать предобученной модели для выполнения некоторых прогнозов. Я ищу несколько шагов/процессов, которые могли бы направить меня в этом. Должен ли я дообучить? Если да, то что именно нужно дообучить?
Data Science
Проблемы в настройке моделей OCR с использованием пользовательских наборов данных
00
Вопрос или проблема Я экспериментировал с дообучением моделей OCR, используя собственный набор данных, в частности с фреймворками doctr и PaddleOCR. Моя цель – улучшить точность распознавания, особенно на документах, которые претерпели различные изменения.
Data Science
Понимание настройки параметра альфа в статье LORA
01
Вопрос или проблема Я читал статью о LORA https://arxiv.org/pdf/2106.09685.pdf, и одна вещь, которую я не понимаю, это раздел 4.1, где обновления изменяются с помощью альфа, где альфа – это константа в r. Говорится, что альфа устанавливается на
Data Science
Тренируйтесь на нескольких доменах, затем донастройтесь на конкретном домене.
00
Вопрос или проблема Имеет ли смысл сначала обучить модель на изображениях из нескольких доменов, а затем провести “тонкую настройку” на одном конкретном домене, чтобы улучшить ее производительность на этом домене? Например, можно обучить детектор
Data Science
Расчет стоимости модели Gemini 1.0 Pro
00
Вопрос или проблема Представьте, что вы готовитесь к тонкой настройке модели Gemini. Пока вы планируете, вы начинаете задумываться о различных расходах, которые вам нужно будет учесть. Вы знаете, что ценообразование Gemini часто подчеркивает расходы
Data Science
Почему не использовать линейную регрессию для дообучения последнего слоя нейронной сети?
00
Вопрос или проблема В трансферном обучении часто лишь последний слой сети перенастраивается с использованием градиентного спуска. Однако последний слой обычной нейронной сети выполняет только линейное преобразование, так почему мы используем градиентный
Data Science
Возможно ли дообучение BERT на нескольких наборах данных? (Каждый набор данных имеет свою цель)
00
Вопрос или проблема BERT можно дообучить на наборе данных для конкретной задачи. Возможно ли дообучить его на всех этих наборах данных для различных задач, а затем использовать для этих задач вместо того, чтобы дообучать модель BERT, специфичную для каждой задачи?
Data Science
Помнит ли GPT-3 данные из подсказок, использованных для его дообучения?
00
Вопрос или проблема Я пытаюсь дообучить модель, используя API дообучения OpenAI. Я передаю тексты (например, статьи из газет) в качестве подсказок и данные, которые хочу получить, в качестве завершений. Рассмотрим следующее: если статья из газеты, которую