Графический процессор перестает распознаваться через некоторое время.

Вопрос или проблема

Я использую RTX 4070Ti на Ubuntu 24.04 с ядром 6.8.0-52 и драйверами Nvidia 550. Я подключаюсь к компьютеру удаленно через ssh, и у него нет подключенного монитора (если это имеет значение). Моя видеокарта продолжает давать сбои. Когда я запускаю nvidia-smi, я получаю:

Unable to determine the device handle for GPU0000:01:00.0: Unknown Error

После перезагрузки компьютера он работает нормально, но через некоторое время снова перестает работать. Кто-нибудь сталкивался с подобным, и что я могу сделать, чтобы это исправить? Вот некоторые команды, которые я запускал, и их вывод:

>lsmod | grep nvidia

 nvidia_drm            122880  2
 nvidia_modeset       1355776  3 nvidia_drm
 nvidia              54386688  30 nvidia_modeset
 video                  73728  2 amdgpu,nvidia_modeset

>dmesg | grep -i nvidia

[    4.613640] input: HDA NVidia HDMI/DP,pcm=3 as /devices/pci0000:00/0000:00:01.1/0000:01:00.1/sound/card0/input8
[    4.613876] input: HDA NVidia HDMI/DP,pcm=7 as /devices/pci0000:00/0000:00:01.1/0000:01:00.1/sound/card0/input9
[    4.614315] input: HDA NVidia HDMI/DP,pcm=8 as /devices/pci0000:00/0000:00:01.1/0000:01:00.1/sound/card0/input10
[    4.615153] input: HDA NVidia HDMI/DP,pcm=9 as /devices/pci0000:00/0000:00:01.1/0000:01:00.1/sound/card0/input11
[    4.655236] nvidia: loading out-of-tree module taints kernel.
[    4.655242] nvidia: module license 'NVIDIA' taints kernel.
[    4.655245] nvidia: module verification failed: signature and/or required key missing - tainting kernel
[    4.655246] nvidia: module license taints kernel.
[    5.623795] nvidia-nvlink: Nvlink Core is being initialized, major device number 510
[    5.624974] nvidia 0000:01:00.0: vgaarb: VGA decodes changed: olddecodes=io+mem,decodes=none:owns=none
[    5.675412] NVRM: loading NVIDIA UNIX x86_64 Kernel Module  550.144.03  Mon Dec 30 17:44:08 UTC 2024
[    5.684118] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms  550.144.03  Mon Dec 30 17:10:10 UTC 2024
[    5.686076] [drm] [nvidia-drm] [GPU ID 0x00000100] Loading driver
[    6.440172] [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:01:00.0 on minor 1
[    6.452495] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCntr from proprietary module nvidia, inheriting taint.
[    6.470561] nvidia-uvm: Loaded the UVM driver, major device number 508.
       NVRM: nvidia-bug-report.sh as root to collect this data before
       NVRM: the NVIDIA kernel module is unloaded.
[316109.267216] nvidia-uvm: Unloaded the UVM driver.


> dmesg | grep -i pci
 ...
 [89212.109319] NVRM: GPU at PCI:0000:01:00: GPU-fe5c340e-4c73-2c72-9782-5bd0fbdd56cf

 [89212.109333] NVRM: Xid (PCI:0000:01:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.

Могу предоставить дополнительную информацию, если нужно, спасибо.

Ответ или решение

Когда ваш графический процессор, такой как RTX 4070Ti, перестает обнаруживаться после некоторого времени работы, это может быть вызвано рядом факторов. Давайте рассмотрим это явление более подробно, используя теорию, примеры и рекомендации к практике.

Теория

Графический процессор (ГП) может «выпадать» из системы по ряду причин, начиная от аппаратных проблем до программных сбоев. Здесь важно понять, что происходит на программном и аппаратном уровнях, чтобы определить причину и устранить проблему.

  1. Аппаратные проблемы:

    • Перегрев: Графические процессоры могут временно отключаться или "выпадать", если они перегреваются из-за неэффективного охлаждения.
    • Проблемы с питанием: Неадекватное питание из-за неисправного блока питания или плохих кабелей может вызвать сбои.
    • Аппаратные неисправности: Например, неплотные соединения или дефекты самого оборудования.
  2. Программные проблемы:

    • Проблемы с драйверами: Конфликты версий драйверов или их неправильная установка могут привести к некорректной работе.
    • Ошибки ядра ОС: Подобные ошибки могут возникать из-за объединения модулей ядра, как показано вашим выводом dmesg, где упоминается загрязнение ядра.
    • Конфликты с другими устройствами: Например, с сетевыми или аудиоустройствами.

Пример

Ваш случай именно с NVIDIA RTX 4070Ti показывает сообщение об ошибке Xid (PCI:0000:01:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus. Это известная ошибка, указывающая на то, что GPU временно потерян для системы — частая проблема, связанная с работой драйверов или аппаратной несовместимостью.

Вы используете Ubuntu 24.04 с ядром 6.8.0-52 и драйверами NVIDIA версии 550. Согласно вашему лог-файлу:

  • Загрязнение ядра происходит из-за использования проприетарных модулей NVIDIA, что указывает на возможные несовместимости версий драйверов.
  • Сообщения о загрузке драйверов указывают, что драйверы загружаются успешно вначале, но затем возникают проблемы.
  • Вы работаете через SSH без подключенного монитора, что может изменять некоторые настройки энергии самого графического процессора.

Применение

  1. Обновите или переустановите драйвера: Убедитесь, что установлена последняя версия драйверов NVIDIA, совместимая с вашим ядром Linux. Возможно, требуется поменять драйверы на более стабильные, протестированные версии.

  2. Проверьте температуру и охлаждение: Убедитесь, что ваш GPU не перегревается. Утилиты типа nvidia-smi помогут отслеживать температуру. Проверьте работоспособность вентиляторов и почистите систему от пыли.

  3. Проверьте блок питания и кабели: Убедитесь, что блок питания соответствующей мощности, и проверьте все кабели на корректное подключение. Используйте качественные и проверенные соединения.

  4. Изучите конфликты модулей: Проверьте вывод dmesg и другие лог-файлы на предмет конфликтов между модулями. Это может включать попытку использовать другие версии ядра, чтобы избежать загрязнения.

  5. Проверяйте устройство в разных конфигурациях: Попробуйте удалить все дополнительные карты или устройства, чтобы понять, не вызывают ли они конфликтов, и добавляйте их по одному.

  6. Используйте предложенные утилиты диагностики: NVIDIA предлагает nvidia-bug-report.sh для сбора информации о состоянии системы, что может быть полезно при обращении за технической поддержкой.

Следуя этим шагам, вы сможете более эффективно определить и устранить проблему с вашим графическим процессором. Если проблема сохраняется, возможно, стоит обратиться за помощью к технической поддержке NVIDIA или рассмотреть возможность проверки оборудования на уровне сервисного центра.

Оцените материал
Добавить комментарий

Капча загружается...