Выбор моделей для ансамбля из большой группы моделей с высокой неопределенностью.

Question 1

Я нахожусь в ситуации, когда создано много моделей, и у меня есть их показатели кросс-валидации, а также результаты на тестовых данных. Мне нужно выбрать модели для включения в простой ансамбль бэггинга, которые с наибольшей вероятностью обобщатся на новые данные.

Общепринятая мудрость предполагает выбор моделей с высокими показателями кросс-валидации и низкой корреляцией друг с другом, так как каждая индивидуальная модель должна иметь хорошие шансы на обобщение, а разнообразие моделей окажет эффект коррекции ошибок.

Тем не менее, кажется, что с учетом большого числа моделей вероятность получить высокий тестовый AUC случайно не является незначительной, и, следовательно, выбор некоррелированных моделей может оказаться более опасным, поскольку отсутствие корреляции может указывать на то, что они нашли совершенно разные механизмы для достижения высокого результата кросс-валидации, один из которых может быть неверным/переобученным. Возможно, более безопасный способ – выбирать модели в определенном диапазоне корреляции (например, Пирсона или Спирмена в диапазоне от 0.7 до 0.9), чтобы сохранить некоторый эффект коррекции ошибок, обеспечивая при этом более последовательный (и, следовательно, возможно, надежный) механизм.

Я искал литературу по этому вопросу и не смог найти ничего. Я был бы очень признателен за любые рекомендации по подходу к этому, или какие статьи почитать – спасибо!

Question 2

Общий принцип обучения ансамблей действительно заключается в том, чтобы полагаться на разнообразие отдельных обучающих моделей, а не на их производительность. Поэтому нормально включать модели, которые хорошо работают случайно (обычно потому, что они переобучены), так как если у моделей есть достаточное разнообразие, маловероятно, что две модели будут переобучены одинаковым образом, то есть что они случайно неверно предскажут одни и те же примеры. Поэтому, если большинство моделей в целом показывают разумные результаты благодаря различным механизмам, ожидается, что для любого данного примера большинство моделей предскажут правильный ответ и только несколько будут неверны.

Риск использования моделей с довольно высокой корреляцией заключается в том, что это подрывает цель ансамблевого обучения и приводит к производительности, аналогичной лучшему отдельному учащемуся.

Также обратите внимание, что риск переобучения довольно низок, если отдельные обучающие модели были протестированы с помощью кросс-валидации. Также стоит проверить дисперсию производительности по результатам кросс-валидации (высокая дисперсия указывает на потенциальную нестабильность), но даже это, на мой взгляд, не очень полезно: действительно, разнообразие обучающих моделей делает ансамблевое обучение оптимальным.

Но, как и обычно, многое зависит от конкретных данных/задачи, поэтому я бы предложил тщательно протестировать несколько различных подходов.

Question 3

Вы можете рассматривать объединение моделей как гиперпараметр, а затем использовать кросс-валидацию для сравнения различных комбинаций моделей. Эта стратегия преобразует задачу в эмпирическую и находит лучшее решение для вашей конкретной задачи.

Выбор моделей для ансамбля из большой группы моделей с высокой неопределенностью.

Вопрос или проблема

Ответ или решение

Выбор моделей для ансамбля из большого числа моделей с высокой неопределённостью

Проблема высокого AUC

Альтернативный подход к выбору моделей

Проверка в литературе

Способы тестирования

Заключение