Результаты XGBoost меняются при удалении одной строки

Содержание

Вопрос или проблема
Ответ или решение
Понимание изменчивости результатов XGBoost при удалении одной строки
Введение
Причины изменчивости результата
Рекомендации по улучшению устойчивости модели
Заключение

Вопрос или проблема

У меня есть тренировочный набор данных из 2600 строк и 26 колонок.

Я обучил классификационную модель XGBoost (1.3.1) с использованием этих данных и оценил ее с помощью тестового набора из примерно 800 строк.

Во время экспериментов я обнаружил, что хотя модель показывает стабильные результаты при повторных запусках, если я уберу всего одну строку (выбранную случайным образом) из набора данных, прогнозы вероятности для отдельной строки изменяются до 15%.

Я не понимаю, почему удаление одной из 2600 строк приводит к таким значительным изменениям в модели!

Параметры:

{'learning_rate': 0.05, \
 'n_estimators': 66, \
 'max_depth': 6, \
 'subsample': 1, \
 'min_child_weight': 1, \
 'colsample_bytree': 1, \
 'gamma': 0.5, \
 'reg_alpha': 0.001, \
 'nthread': 1, \
 'seed': 11}

Модели на основе деревьев очень нестабильны, поэтому ожидать совершенно различных геометрий деревьев при изменении всего лишь одной точки вполне нормально, но предсказательная точность не должна сильно различаться, если набор данных сбалансирован.

Я бы рекомендовал провести корректную валидацию, чтобы увидеть неопределенность в производительности модели, вместо того чтобы просто рассматривать простое разделение на обучение и тест.

Ответ или решение

Понимание изменчивости результатов XGBoost при удалении одной строки

Введение

Ваша ситуация с моделью XGBoost, которая демонстрирует значительные изменения в предсказаниях при удалении всего одной строки, поднимает важные вопросы о стабильности и чувствительности моделей на основе деревьев решений. Несмотря на то, что XGBoost — это мощный инструмент для классификации и регрессии, он может обладать высокой чувствительностью к небольшим изменениям в данных. Давайте подробнее рассмотрим причины этого явления и предложим возможные решения.

Причины изменчивости результата

Структура данных:
- В вашем наборе данных в 2,600 строк может существовать высокая степень корреляции между признаками. Удаление одной строки может изменить распределение данных и, соответственно, привести к искажениям в структуре деревьев. Если удаляемая строка была «важной» для обучения модели (то есть значимо влияла на расположение границ между классами), это может привести к изменениям в предсказаниях.
Степень переобучения:
- Параметры вашей модели, такие как max_depth, gamma, и min_child_weight, могут способствовать переобучению, особенно если модель обучается на относительно небольшом наборе данных. При переобучении модель становится зависимой от конкретных примеров в обучающем наборе, и удаление одной строки может значительно повлиять на предсказания.
Случайность алгоритма:
- XGBoost использует случайные подмножества данных и признаков для построения деревьев. Это добавляет вариативность в модель, и небольшие изменения в данных могут привести к радикально различным структурам деревьев.
Статистика и распределение вероятностей:
- Ваша модель возвращает вероятности классов, которые зависят от агрегирования результатов нескольких деревьев. Изменение даже одной строки может исказить это агрегирование, особенно если удаленная строка имеет крайние значения по важным признакам.

Заключение

Изменения в предсказаниях, возникающие при удалении одной строки из вашего набора данных, подчеркивают важность устойчивости модели. Особенности работы алгоритмов на базе деревьев принятия решений создают эффекты, которые могут вводить в заблуждение, особенно на малых выборках. Следуя предложенным рекомендациям, вы сможете достичь более стабильного и предсказуемого поведения вашей модели XGBoost.