Развернуть финальную модель из обучающей выборки или обучающей + тестовой выборки.

Вопрос или проблема

Я новичок в области Data Science. Я создал модель с использованием градиентного бустинга для прогнозирования цены на дом. Чтобы оценить свою модель, я разделил мой набор данных на тренировочный и тестовый (0.8 тренировка / 0.2 тест) и получил 0.94 R^2 для тренировочного и 0.89 для тестового. Если я хочу развернуть эту модель для коммерческих целей, нужно ли мне создавать новую модель с объединенным тренировочным и тестовым набором данных? Если я так поступлю, не будет ли моя модель иметь совершенно другой результат, например, переобучение? Или мне следует использовать модель, которую я обучил на тренировочном наборе данных и создать нечто вроде ‘model.joblib’, импортировать в Google Cloud и создать API на основе обученной модели?

Ниже приведены выполненные шаги.

  1. Разделить данные на тренировочные и OOT.
  2. Создать модель на тренировочных данных.
  3. Оценить на тестовом наборе.
  4. Сохранить модель с помощью pickle.
  5. Создать API.

Используйте модель, которую вы обучили на тренировочном наборе данных и сохранили с помощью pickle, и создайте API.

Ответ или решение

Конечно, работая в области Data Science, вам придется принимать важные решения, касающиеся финального развертывания модели. Вы уже создали модель с использованием методов Gradient Boosting для предсказания цен на недвижимость и провели ее оценку, разделив данные на обучающую (80%) и тестовую (20%) выборки. Полученные метрики (0.94 R² для обучения и 0.89 для теста) указывают на хорошее качество модели.

Теперь, вы стоите перед важной дилеммой: следует ли использовать объединенные данные для обучения финальной модели или придерживаться первоначально обученной модели. Разрешите разработать пошаговый подход для принятия лучшего решения.

  1. Понимание Обоснованности Существующей Модели: Модель, обученная только на обучающей выборке, уже показала достаточную способность к генерализации, что подтверждается высоким значением R² на тестовой выборке. Это свидетельствует о том, что модель качественно обучилась выявлять основные зависимости.

  2. Опасности Объединенного Обучения: Обучение на объединенных данных (train + test) может привести к оверфиттингу, особенно если модель будет слишком специфична для данных, которые она ранее видела. Это серьезно снизит способность модели к предсказанию на новых данных и может подорвать доверие к ее результатам в бизнесе.

  3. Практический Подход к Развертыванию: Как правило, предпочтительно развертывать модель, обученную на первоначальной обучающей выборке и протестированную на независимой тестовой выборке. Это способствует уверенному восприятию ее надежности.

  4. Подготовка к Развертыванию: Ваши далее шаги — сериализовать (например, используя Pickle или Joblib) модель и подготовить ее к развертыванию через API (например, на базах Google Cloud). Это обеспечит гибкость и масштабируемость вашего решения.

  5. Непрерывный Мониторинг: После развертывания, важно организовать процесс мониторинга работы модели в реальных условиях. Это позволит оперативно реагировать на изменения в данных ввода, т.о, обеспечивать долгосрочную релевантность и корректность предсказаний.

Используя вышеизложенные шаги, вы уверенно сможете внедрить вашу модель в бизнес-процессы, минимизировав риски и повысив ценность для вашей компании.

Таким образом, придерживаясь конструкции FOREST, важно акцентировать внимание на переоценке необходимости и значимости каждого шага:

  • Fairness (Справедливость) в оценке модели
  • Optimization (Оптимизация) процесса развертывания
  • Reliability (Надежность) конечного решения
  • Strategy (Стратегия) мониторинга и улучшения
  • Efficiency (Эффективность) восприятия в бизнесе
  • Transparency (Прозрачность) процесса и решений для повышения доверия.
Оцените материал
Добавить комментарий

Капча загружается...