Серьезные и неожиданные сбои серверов HPC GPU/MIG после регулярных обновлений системы.

Question

Хотя мы уже выяснили причину и обходное решение этой проблемы, я публикую это здесь, потому что это может быть актуально для других, у кого аналогичная настройка.

Проблема

После регулярной периодической процедуры обновления на вычислительном и входном узле GPU нашего кластера HPC возникла проблема, когда сервер неожиданно перезагружался в очень неожиданные моменты. Обновление включало в себя некоторые обновления прошивки SSD, за которыми (после успешной перезагрузки) следовало обновление ОС (RHEL 8.10 oopta). Это включало обновление ядра с 4.18.0-553.30 до 4.18.0-553.36. Это также автоматически обновило программное обеспечение драйвера nvidia до последней версии в потоке (с 565 до 570), включая управление фабрикой (dnf module install nvidia-driver:latest-dkms/fm). После обновления система была успешно протестирована и введена в эксплуатацию. Только когда несколько пользователей одновременно вошли в систему и использовали различные приложения, происходили неожиданные перезагрузки системы. В процессе не оставалось никаких следов в файлах журналов или dmesg. Не было возможности получить журнал сбоев.

Технические характеристики

(неактуальные детали опущены) HPE ProLiant XL675d apollo с восемью GPU устройствами A100-80GB на плате HGX, 2TB RAM, стандартным контроллером RAID и смесью ssd и hdd для ОС и данных соответственно. Из восьми A100, четыре настроены в мультирежим MIG. Программное обеспечение: ОС Red hat 8.10, настроенная с использованием slurm в качестве диспетчера заданий. Мы используем ограничения устройств cgroup, чтобы предотвратить доступ пользователей к GPU-устройствам за пределами slurm-сессий через cgconfig:

...
  # предотвратить доступ к GPU устройствам
  devices {
    devices.deny="c 195:* rwm";
  }

Что мы пробовали?

Мы попробовали много вариантов. Изначально мы подозревали проблему с обновлением прошивки. Откатились назад и обновили всю остальную прошивку, включая GPU. Загружались с оригинальным ядром. Ограничили доступ к GPU. Отключили X через SSH, отключили xRDP. Ничего не помогло. В какой-то момент мы заметили, что сбои часто происходят после запуска приложения, содержащего chrome-sandbox. (Такие как pyCharm, CLion, Visual Code, chromium-browser.) В конце концов мы смогли вызвать сбой и перезагрузку контролируемым образом. Оказалось, что сбой происходил только тогда, когда хотя бы один из A100 был настроен в режиме MIG. Простое начало работы одного из упомянутых приложений вызывало сбой. Даже когда использование GPU было отключено (chromium-browser --disable-gpu) и когда доступ к GPU был ограничен с использованием linux cgroups или slurm.

Решение/обходной путь

Возврат драйверов nvidia к предыдущей версии решил проблему на данный момент:

dnf remove nvidia-driver
dnf module reset nvidia-driver
dnf remove libnvidia-nscq-570-570.86.15-1.x86_64
dnf module install nvidia-driver:565-dkms/fm

Вопрос

Хотя эта конкретная проблема нова с драйверами nvidia v570, мы не уверены, что использование cgconfig является надежным способом ограничения доступа к ресурсам GPU. Будем рады любым мыслям по этому поводу.

Серьезные и неожиданные сбои серверов HPC GPU/MIG после регулярных обновлений системы.

Вопрос или проблема

Проблема

Технические характеристики

Что мы пробовали?

Решение/обходной путь

Вопрос

Ответ или решение

Теория

Пример

Применение