Gridsearch XGBoost для ансамбля. Нужно ли включать матрицу предсказаний первого уровня базовых моделей в обучающую выборку?

Question 1

Я не совсем уверен, как мне следует настраивать xgboost, прежде чем использовать его в качестве мета-обучающего в ансамблевом обучении.

Должен ли я включать матрицу предсказаний (то есть df, содержащий столбцы результатов предсказаний от различных базовых моделей) или мне стоит включить только оригинальные признаки?

Я пробовал оба метода, используя только ‘n_estimators’, настроенный по метрике F1 для кросс-валидации. (скорость обучения = 0.1)

Метод 1: С предсказательной матрицей + оригинальные признаки:

n_estimators = 1 (это значит, что в модель включено всего одно дерево, является ли это аномальным?)
F1 Score (Train): 0.907975 (предполагает переобучение)

Метод 2: Только с оригинальными признаками:

n_estimators = 1
F1 Score (Train): 0.39

Я получаю довольно разные результаты для обоих методов, что имеет смысл, так как график важности признаков для Метода 1 показывает, что одно из предсказаний первого уровня является наиболее важным.

Я думаю, что предсказания первого уровня от базовых моделей должны быть включены в поиск по сетке. Какие мысли?

Question 2

Вам следует настраивать мета-оценщик, используя любые данные, с которыми вы хотите, чтобы он в конечном итоге предсказывал. Это определенно должно включать предсказания базовой модели (иначе вы на самом деле не используете ансамблирование) и может или не может включать (некоторые) оригинальные признаки.

Однако важное замечание: вы не должны обучать мета-оценщик, используя “предсказания” базовых моделей на их собственных обучающих данных; их более точно называли бы оценками, а не предсказаниями, потому что базовые модели уже имели доступ к истине. Распространенный подход – обучать мета-оценщик на предсказаниях вне выборки из кросс-валидации по обучению базовых моделей.

Если базовые модели довольно хороши, то разумно, что модель xgboost может использовать только одно дерево; ей просто нужно подправить уже хорошие предсказания от базовых моделей. Но подумайте о снижении скорости обучения или увеличении регуляризации, чтобы проверить, сможет ли больше деревьев показать лучшие результаты.

Question 3

Да, вы определенно можете использовать предсказания первой базовой модели в качестве входных данных для мета-обучения. Это может улучшить модели и активно использовалось на конкурсных платформах.

Эта техника известна как техника стекинга и подвержена переобучению. Если вы хотите использовать стекинг для ваших моделей, я бы посоветовал использовать кросс-валидацию вне выборки и посмотреть на производительность.

Вам следует попробовать следовать этому подходу; это помогает ограничить переобучение (читайте, переобучение все еще может происходить, но шансы снижаются при хорошем дизайне):

https://developer.ibm.com/articles/stack-machine-learning-models-get-better-results/

Gridsearch XGBoost для ансамбля. Нужно ли включать матрицу предсказаний первого уровня базовых моделей в обучающую выборку?

Вопрос или проблема

Ответ или решение

1. Включение матрицы предсказаний базовых моделей

2. Параметры настройки для XGBoost

3. Потенциальные результаты

4. Лучшие практики

Заключение