Вопрос или проблема
Я хотел бы узнать, возможно ли через терминал сбросить настройки GPU? Чтобы уточнить, пример сценария, когда видеокарта разогнана слишком сильно и сбрасывается до уровня производительности 0, или около 30% стандартной скорости.
Перезагрузка это исправляет, но проблема в том, что я обычно получаю доступ к этому компьютеру удаленно через TeamViewer и мне нужно оставаться подключенным, пока видеокарта сбрасывается.
Спасибо
Если вы можете использовать nvidia-smi
, вы можете сбросить с помощью:
sudo nvidia-smi --gpu-reset
или
sudo nvidia-smi -r
Это взято из справки nvidia-smi
: nvidia-smi -h | grep reset
. Это должно работать на вашем компьютере.
Другие люди могут использовать серверы, такие как DGX-1. В этом случае вы не можете сбросить отдельные GPU:
В случае платформ DGX-1 и DGX-1V отдельные GPU не могут быть сброшены, потому что они связаны через nvlink, поэтому все GPU должны быть сброшены одновременно.
Это относится к некоторым вычислительным кластерам и стандартной виртуальной машине NV6 на Azure:
$ sudo nvidia-smi -r
Сброс GPU 00003343:00:00.0 не поддерживается.
Ответ или решение
Перезагрузка или сброс графического процессора (GPU) без перезапуска всей системы – это задача, с которой может столкнуться любой IT-специалист, особенно если вы работаете с настольной системой, которой нужно управлять удалённо, как, например, через TeamViewer. В системах на базе Linux, таких как Linux Mint, для задач мониторинга и управления видеокартами NVIDIA предоставляется полезный инструмент под названием nvidia-smi
. Рассмотрим, как можно подойти к решению проблемы сброса графического процессора без перезагрузки системы.
Теория
Когда у вас возникает проблема с видеокартой, например, из-за чрезмерного разгона или других факторов, которые задают неверные параметры длительности работы, такая карта может перейти в режим очень низкой производительности – так называемый "Performance Level 0" или лишь 30% от стандартной скорости. Это может заметно сказаться на производительности системы и ее доступности через удаленный доступ.
В обычной практике самым простым способом решения проблемы является перезагрузка всей системы, что сбрасывает параметры карты на дефолтные значения. Однако это далеко не всегда удобно и возможно, особенно когда доступ к машине осуществляется удалённо, и вы не хотите потерять связь.
К счастью, nvidia-smi
предоставляет возможность выполнения действия по перезагрузке GPU. Эта команда доступна для большинства систем и GPU:
sudo nvidia-smi --gpu-reset
или сокращенная версия:
sudo nvidia-smi -r
Эта команда будет работать на большинстве настольных и серверных машин, оборудованных современными видеокартами NVIDIA, предоставляя мягкий сброс GPU, что особенно полезно, если вы работаете в ситуации, описанной выше, без необходимости терять соединение через удаленный доступ.
Пример
Допустим, у вас есть машина с Linux Mint и установленной видеокартой NVIDIA, и вы заметили снижение производительности, вызванное неправильными параметрами GPU. Вы подключены через TeamViewer и не хотите перезагружать систему, чтобы сохранить соединение.
- Откройте терминал.
- Выполните команду:
sudo nvidia-smi --gpu-reset
Команда попытается сбросить параметры GPU на стандартные значения без перезагрузки системы.
Однако следует отметить, что это не всегда может быть поддержано в зависимости от конфигурации системы. Например, на высокоintegrировнных платформах, таких как DGX-1 или в вычислительных кластерах, может потребоваться сброс всех GPU одновременно из-за их взаимосвязанной структуры через NVLink. Это означает, что в данных системах выполнение сброса для отдельного GPU может быть не поддержано. Вот пример сообщения об ошибке:
sudo nvidia-smi -r
Resetting GPU 00003343:00:00.0 is not supported.
Применение
Итак, как вы можете применять эти знания в повседневной практике? Прежде всего, это возможность минимизировать время простоя системы, сохраняя производительность и доступность для удаленной работы. Если вы работаете в среде, где ваши системы оснащены поддерживаемым оборудованием NVIDIA, вы можете быстро восстановить производительность видеокарты, не прибегая к полному отключению системы.
Кроме того, вы приобретаете навык, полезный и в других системных администрированиях, поскольку это позволяет вам решать проблемы с оборудованием на лету, что особенно важно в удаленной серверной среде. Такой подход демократизирует не только доступ, но и скорость исправления ошибок, обеспечивая продолжение работы без обрыва связи или ненужных перезагрузок.
В заключение стоит отметить, что хотя nvidia-smi
– это мощный инструмент для администрирования GPU от NVIDIA в Linux, его возможности тоже имеют пределы, и потому всегда полезно знать свою аппаратную инфраструктуру и ее ограничения для оптимального решения задач. Это поможет вам уверенно поддерживать высокую производительность ваших систем в самых разнообразных условиях эксплуатации.