Linux Mint сброс NVIDIA GPU без перезагрузки

Вопрос или проблема

Я хотел бы узнать, возможно ли через терминал сбросить настройки GPU? Чтобы уточнить, пример сценария, когда видеокарта разогнана слишком сильно и сбрасывается до уровня производительности 0, или около 30% стандартной скорости.

Перезагрузка это исправляет, но проблема в том, что я обычно получаю доступ к этому компьютеру удаленно через TeamViewer и мне нужно оставаться подключенным, пока видеокарта сбрасывается.

Спасибо

Если вы можете использовать nvidia-smi, вы можете сбросить с помощью:

sudo nvidia-smi --gpu-reset

или

sudo nvidia-smi -r

Это взято из справки nvidia-smi: nvidia-smi -h | grep reset. Это должно работать на вашем компьютере.

Другие люди могут использовать серверы, такие как DGX-1. В этом случае вы не можете сбросить отдельные GPU:

В случае платформ DGX-1 и DGX-1V отдельные GPU не могут быть сброшены, потому что они связаны через nvlink, поэтому все GPU должны быть сброшены одновременно.

Это относится к некоторым вычислительным кластерам и стандартной виртуальной машине NV6 на Azure:

$ sudo nvidia-smi -r
Сброс GPU 00003343:00:00.0 не поддерживается.

Ответ или решение

Перезагрузка или сброс графического процессора (GPU) без перезапуска всей системы – это задача, с которой может столкнуться любой IT-специалист, особенно если вы работаете с настольной системой, которой нужно управлять удалённо, как, например, через TeamViewer. В системах на базе Linux, таких как Linux Mint, для задач мониторинга и управления видеокартами NVIDIA предоставляется полезный инструмент под названием nvidia-smi. Рассмотрим, как можно подойти к решению проблемы сброса графического процессора без перезагрузки системы.

Теория

Когда у вас возникает проблема с видеокартой, например, из-за чрезмерного разгона или других факторов, которые задают неверные параметры длительности работы, такая карта может перейти в режим очень низкой производительности – так называемый "Performance Level 0" или лишь 30% от стандартной скорости. Это может заметно сказаться на производительности системы и ее доступности через удаленный доступ.

В обычной практике самым простым способом решения проблемы является перезагрузка всей системы, что сбрасывает параметры карты на дефолтные значения. Однако это далеко не всегда удобно и возможно, особенно когда доступ к машине осуществляется удалённо, и вы не хотите потерять связь.

К счастью, nvidia-smi предоставляет возможность выполнения действия по перезагрузке GPU. Эта команда доступна для большинства систем и GPU:

sudo nvidia-smi --gpu-reset

или сокращенная версия:

sudo nvidia-smi -r

Эта команда будет работать на большинстве настольных и серверных машин, оборудованных современными видеокартами NVIDIA, предоставляя мягкий сброс GPU, что особенно полезно, если вы работаете в ситуации, описанной выше, без необходимости терять соединение через удаленный доступ.

Пример

Допустим, у вас есть машина с Linux Mint и установленной видеокартой NVIDIA, и вы заметили снижение производительности, вызванное неправильными параметрами GPU. Вы подключены через TeamViewer и не хотите перезагружать систему, чтобы сохранить соединение.

  1. Откройте терминал.
  2. Выполните команду:
sudo nvidia-smi --gpu-reset

Команда попытается сбросить параметры GPU на стандартные значения без перезагрузки системы.

Однако следует отметить, что это не всегда может быть поддержано в зависимости от конфигурации системы. Например, на высокоintegrировнных платформах, таких как DGX-1 или в вычислительных кластерах, может потребоваться сброс всех GPU одновременно из-за их взаимосвязанной структуры через NVLink. Это означает, что в данных системах выполнение сброса для отдельного GPU может быть не поддержано. Вот пример сообщения об ошибке:

sudo nvidia-smi -r
Resetting GPU 00003343:00:00.0 is not supported.

Применение

Итак, как вы можете применять эти знания в повседневной практике? Прежде всего, это возможность минимизировать время простоя системы, сохраняя производительность и доступность для удаленной работы. Если вы работаете в среде, где ваши системы оснащены поддерживаемым оборудованием NVIDIA, вы можете быстро восстановить производительность видеокарты, не прибегая к полному отключению системы.

Кроме того, вы приобретаете навык, полезный и в других системных администрированиях, поскольку это позволяет вам решать проблемы с оборудованием на лету, что особенно важно в удаленной серверной среде. Такой подход демократизирует не только доступ, но и скорость исправления ошибок, обеспечивая продолжение работы без обрыва связи или ненужных перезагрузок.

В заключение стоит отметить, что хотя nvidia-smi – это мощный инструмент для администрирования GPU от NVIDIA в Linux, его возможности тоже имеют пределы, и потому всегда полезно знать свою аппаратную инфраструктуру и ее ограничения для оптимального решения задач. Это поможет вам уверенно поддерживать высокую производительность ваших систем в самых разнообразных условиях эксплуатации.

Оцените материал
Добавить комментарий

Капча загружается...