Вопрос или проблема
Я нахожусь в ситуации, когда создано много моделей, и у меня есть их показатели кросс-валидации, а также результаты на тестовых данных. Мне нужно выбрать модели для включения в простой ансамбль бэггинга, которые с наибольшей вероятностью обобщатся на новые данные.
Общепринятая мудрость предполагает выбор моделей с высокими показателями кросс-валидации и низкой корреляцией друг с другом, так как каждая индивидуальная модель должна иметь хорошие шансы на обобщение, а разнообразие моделей окажет эффект коррекции ошибок.
Тем не менее, кажется, что с учетом большого числа моделей вероятность получить высокий тестовый AUC случайно не является незначительной, и, следовательно, выбор некоррелированных моделей может оказаться более опасным, поскольку отсутствие корреляции может указывать на то, что они нашли совершенно разные механизмы для достижения высокого результата кросс-валидации, один из которых может быть неверным/переобученным. Возможно, более безопасный способ – выбирать модели в определенном диапазоне корреляции (например, Пирсона или Спирмена в диапазоне от 0.7 до 0.9), чтобы сохранить некоторый эффект коррекции ошибок, обеспечивая при этом более последовательный (и, следовательно, возможно, надежный) механизм.
Я искал литературу по этому вопросу и не смог найти ничего. Я был бы очень признателен за любые рекомендации по подходу к этому, или какие статьи почитать – спасибо!
Общий принцип обучения ансамблей действительно заключается в том, чтобы полагаться на разнообразие отдельных обучающих моделей, а не на их производительность. Поэтому нормально включать модели, которые хорошо работают случайно (обычно потому, что они переобучены), так как если у моделей есть достаточное разнообразие, маловероятно, что две модели будут переобучены одинаковым образом, то есть что они случайно неверно предскажут одни и те же примеры. Поэтому, если большинство моделей в целом показывают разумные результаты благодаря различным механизмам, ожидается, что для любого данного примера большинство моделей предскажут правильный ответ и только несколько будут неверны.
Риск использования моделей с довольно высокой корреляцией заключается в том, что это подрывает цель ансамблевого обучения и приводит к производительности, аналогичной лучшему отдельному учащемуся.
Также обратите внимание, что риск переобучения довольно низок, если отдельные обучающие модели были протестированы с помощью кросс-валидации. Также стоит проверить дисперсию производительности по результатам кросс-валидации (высокая дисперсия указывает на потенциальную нестабильность), но даже это, на мой взгляд, не очень полезно: действительно, разнообразие обучающих моделей делает ансамблевое обучение оптимальным.
Но, как и обычно, многое зависит от конкретных данных/задачи, поэтому я бы предложил тщательно протестировать несколько различных подходов.
Вы можете рассматривать объединение моделей как гиперпараметр, а затем использовать кросс-валидацию для сравнения различных комбинаций моделей. Эта стратегия преобразует задачу в эмпирическую и находит лучшее решение для вашей конкретной задачи.
Ответ или решение
Выбор моделей для ансамбля из большого числа моделей с высокой неопределённостью
В условиях, когда у вас имеется множество моделей, и вы располагаете их результатами кросс-валидации и тестирования, задача выбора моделей для простого ансамбля (например, бэггинга) может оказаться весьма сложной. На первый взгляд, логика подсказывает, что для создания ансамбля целесообразно выбирать модели с высокими показателями кросс-валидации и низкой корреляцией между собой. Это связано с тем, что каждая отдельная модель должна иметь хорошие шансы на обобщение, а разнообразие моделей обеспечит эффект коррекции ошибок. Однако, при наличии большого числа моделей высокие показатели тестового AUC могут быть следствием случайности, и такой выбор может быть рискованным.
Проблема высокого AUC
С увеличением количества моделей вероятность получения высоких показателей тестового AUC случайным образом возрастает. Следовательно, выбор моделей с низкой корреляцией может привести к тому, что эти модели нашли разные механизмы для достижения высоких показателей производительности, что включает в себя возможность нахождения моделей, которые оказались переобученными или адаптированными к специфическим особенностям обучающего набора данных.
Альтернативный подход к выбору моделей
Вместо того чтобы исключать модели на основе корреляции, разумным может оказаться подход, при котором вы выбираете модели с определённым уровнем корреляции (например, Pearson или Spearman в диапазоне 0.7–0.9). Данный диапазон позволяет сохранить некоторую степень коррекции ошибок, обеспечивая при этом некоторую однородность в механизмах, используемых моделями.
Проверка в литературе
Хотя упоминание о работах в этой области недостаточно, я рекомендую обратить внимание на следующие направления:
-
Оценка моделей: Исследуйте работы, связанные с оценкой и отбором моделей на этапе кросс-валидации. Обратите внимание на статьи, рассматривающие проблему переобучения и его влияние на производительность моделей.
-
Комбинирование моделей: Изучите исследования, которые анализируют, как различные методы объединения моделей влияют на их общую производительность. Примеры таких методов включают bagging, boosting и stacking.
-
Адаптивные ансамбли: Рассмотрите методы, основанные на адаптации ансамблей, где вес моделей корректируется в зависимости от их производительности на текущем наборе данных.
Способы тестирования
Одним из практических подходов к выбору наиболее эффективного ансамбля являетсяTreating model ensembling как гиперпараметр, который можно оптимизировать с помощью кросс-валидации. Попробуйте сравнить разные комбинации моделей, чтобы empirically find the best solution for your specific use case.
Заключение
Ваш выбор моделей для ансамбля должен основываться как на их индивидуальной производительности, так и на их способности к обобщению. Учтите, что разнообразие моделей действительно важно, но имейте в виду, что чрезмерная независимость может быть опасной. Проанализируйте корреляцию с умом, рассмотрите возможность формирования ансамблей с учетом как производительности, так и общего подхода к проблеме. В конечном итоге правильный выбор модели будет зависеть от специфики данных и задачи, с которой вы работаете.