Имеет ли смысл, что производительность XG Boost резко варьируется между двумя машинами при фиксированных гиперпараметрах?

Вопрос или проблема

Я настраиваю гиперпараметры модели XGBoost и обнаруживаю, что в зависимости от того, тренирую ли я модель локально на своем компьютере или на AWS SageMaker, я получаю довольно разные результаты.

Запуск перекрестной проверки локально для определенного набора гиперпараметров дает средний R^2 около ~0,23, тогда как для тех же гиперпараметров на SageMaker я получаю средний R^2 около ~0,7.

Я знаю, что XGBoost в общем не является детерминированным, но я не ожидал, что производительность будет так сильно варьироваться. Какой эффект оказывает разница в процессорах, которые использует SageMaker по сравнению с локальной машиной? Другими словами, я пытаюсь понять, является ли эта разница в производительности ожидаемой или нет. Если это неожиданно, это, вероятно, означает, что я некорректно настроил сравнение. Если это не удивительно, есть ли способ сделать производительность более сопоставимой между двумя машинами?

Спасибо.

Для меня это звучит как большая разница для любой модели. Вы можете контролировать случайность, установив семена для numpy, random и других библиотек.

Можете ли вы проверить, какие гиперпараметры использует SageMaker? Если вы возьмете его оптимальные гиперпараметры и примените их к вашей локальной модели, вы должны получить результаты, схожие с результатами SageMaker.

Если нет, одной из проблем может быть то, что обучающие и валидационные наборы данных между локальной машиной и SageMaker как-то сильно различаются. Вероятно, локальная копия не имеет некоторых информативных признаков или целевая переменная была искажена.

Стоит отметить, сколько комбинаций гиперпараметров тестирует SageMaker по сравнению с вашей локальной конфигурацией – возможно, он пробует намного больше образцов или исследует более широкий пространственный диапазон, если они настроены по-разному.

Ответ или решение

Да, действительно, разница в производительности модели XGBoost на разных машинах может быть значительной, даже при сохранении всех гиперпараметров постоянными. Давайте разберем, почему так происходит и что можно сделать для того, чтобы достичь более сопоставимых результатов между локальной средой и AWS SageMaker.

Случайность и детерминизм: XGBoost обладает некоторой случайной природой, особенно в контексте выбора случайных подмножеств данных и порядка, в котором обрабатываются решения. Использование одинаковых значений сидов (random_state для numpy, XGBoost и других библиотек) может уменьшить влияние случайности, но полностью исключить его нельзя. Убедитесь, что вы устанавливаете все возможные сиды.
Различия в средах: Разные аппаратные конфигурации (разница в ЦП, памяти и других характеристиках) могут сильно повлиять на производительность XGBoost. Возможно, ваша локальная машина имеет меньше вычислительных ресурсов по сравнению с AWS SageMaker. Этот фактор не только влияет на скорость обработки данных, но и на порядок, в котором обрабатываются эти данные, что может привести к различиям в результате.
Наборы данных: Проверьте, что вы используете идентичные наборы для обучения и валидации на обоих устройствах. Важно убедиться, что в ваших локальных данных нет пропущенных признаков или искаженных целевых значений. Даже небольшой сдвиг в данных может привести к значительным изменениям в производительности.
Гиперпараметры: Убедитесь, что SageMaker действительно использует точно такие же гиперпараметры, как и ваша локальная версия. Иногда системы могут автоматически подбирать гиперпараметры или иным образом изменять их в процессе обучения. Вы можете попробовать использовать оптимизированные гиперпараметры SageMaker и проверить, улучшится ли производительность на локальном экземпляре.
Сравнение обучения: Сравните количество комбинаций гиперпараметров, которые тестирует SageMaker, по сравнению с вашим локальным набором. Если SageMaker проверяет значительно большее количество опций, это может объяснить более высокую производительность, так как он мог случайно найти более подходящие сочетания параметров.
Статистическая значимость: Проведите большее количество тестов и используйте различные реализаций кросс-валидации (например, K-Fold), чтобы убедиться, что результаты на обоих устройствах статистически значимы.

Если, несмотря на все эти проверки, разница в производительности остаётся столь же значительной, вам следует обратить внимание на настройки и конфигурацию обеих систем. Это может указывать на необходимость более тщательной настройки вашего рабочего процесса или сбора данных.

Кроме того, вы можете рассмотреть возможность использования стабильной версии XGBoost и фиксировать версию библиотеки на обеих системах, чтобы исключить влияние обновлений или изменений в алгоритме.

Эти шаги помогут вам понять причины различий в производительности и позволят добиться более сопоставимых результатов между локальной и облачной средами.