XGBoost дает одинаковые ответы для параметров, не входящих в диапазон обучения.

Question 1

У меня есть набор данных (CPP (среднемесячный), канал, шоу, месяц, год) для прогнозирования возврата маркетинга. Набор данных содержит рекламу с 2022 по 2023 годах и имеет около 130 тысяч точек. У меня есть модель, XGBOOST, и обучающие, и тестовые наборы работают хорошо, но моя главная цель – получить прогноз на январь 2024 года, что, я знаю, не является идеальным случаем использования для машинного обучения. Но я могу допустить некоторую приличную погрешность, и это все равно будет полезно. Моя проблема в том, что, когда я передаю этой модели январь 2024 года, она делает те же прогнозы, что и в январе 2023 года, и это повторяется, как и год, но не в январе или феврале 2022 года. Мое предположение заключается в том, что это происходит из-за структуры дерева этой модели. 2024 год проходит тем же путем, что и 2023 год. Как я могу это решить, другие модели не работают хорошо, так как набор данных достаточно случайный, но xgboost, кажется, справляется неплохо.

Что еще вы можете предложить для такого проекта, может быть, нейронные сети с методами прогнозирования?

Question 2

Проблема в том, что в вашем наборе данных мало информации для работы (только 1 непрерывная и 4 дискретных переменных).

Деревья, полученные в результате этого, легко переобучаются на данные, потому что существует не так много возможных конфигураций. Таким образом, это приводит к идентичным прогнозам.

Question 3

Ваше предположение…

… вероятно, верное.

Год 2024 отсутствовал в обучающих данных, поэтому для этих входных данных XGBoost должен сделать расщепление на основе ранее изученных данных. Поскольку xgb делит числа по порогу, а 2024 больше, чем самое большое обученное значение (2023), он всегда будет делать тот же выбор, что и в 2023 году.

Что вы можете сделать?

Существует несколько способов использовать xgb для задач экстраполяции, таких как ваша. В основном, вы можете трансформировать или обогатить ваши данные таким образом, чтобы разницу между 2024 и 2023 годами можно было изучить. Это можно сделать путем:

Определение другой цели

Вместо того чтобы предсказывать значения для месяца, вы можете предсказывать разницы по сравнению с предыдущим месяцем. Вопрос (на который вам придется ответить): сколько вы хотите вперед планировать. Хотите ли вы предсказывать разницу между декабрем 2023 года и январем 2024 года или имеет ли смысл предсказывать разницу между январем 2023 года и январем 2024 года?

Инженерия признаков

Вы можете обогатить свои признаки, чтобы образцы различались между 2023 и 2024 годами, даже если все ваши базовые признаки (кроме года) остаются одинаковыми. Вы могли бы, например, ввести некоторые статистические данные о предыдущих месяцах, такие как среднее значение, дисперсия и т.д. по некоторой характеристике. Если вы рассматриваете одну характеристику и 3 месяца, вы получите 3 новых признака. Если вы используете среднее и стандартное отклонение для одной исходной характеристики и 3 месяцев, вы уже получите 6 новых признаков.

Делая это, вы легко получите новые признаки, из которых xgb сможет изучить разницу между 2023 и 2024 годами. Теперь вам нужно понять вашу задачу и данные и выяснить, что имеет смысл.

Вы даже можете комбинировать оба подхода.

XGBoost дает одинаковые ответы для параметров, не входящих в диапазон обучения.

Вопрос или проблема

Ваше предположение…

Что вы можете сделать?

Определение другой цели

Инженерия признаков

Ответ или решение