Вопрос или проблема
Здравствуйте, сообщество Ubuntu,
Я испытываю случайные выключения и перезагрузки на своем Lenovo ThinkPad P14s Gen 4 с установленным Ubuntu 24.04 LTS и ищу помощь в диагностике проблемы. Эти перезагрузки происходят неожиданно, без зависаний или предупреждений, и я не могу воспроизвести проблему по запросу.
Спецификации системы:
Модель: Lenovo ThinkPad P14s Gen 4
Процессор: Intel i7-1370P vPro (13-е поколение)
Оперативная память: 32 ГБ
Хранение: 1 ТБ SSD
Графика: NVIDIA RTX A500 4GB GDDR6, в настоящее время с драйвером nouveau, но также тестировался с проприетарным NVIDIA 550
Версия Ubuntu: 24.04 LTS
Версия ядра: 6.8.0-45-generic
Проблема:
Ноутбук случайным образом выключается и перезагружается без зависаний. Это может происходить несколько раз в день или реже, без четкого паттерна. Это происходит как во время легких задач, так и при более тяжелом использовании, и я не могу постоянно воспроизводить проблему.
На системе почти нет нагрузки, так как я в основном использую ее для удаленной работы через Remmina.
Вентилятор в основном тихий, кроме как при запуске. Иногда я могу работать несколько дней без сбоев, иногда происходит несколько сбоев в день…
В журналах ошибок наблюдается довольно много ошибок. Особенно сообщение HANDLING IBECC MEMORY ERROR
могло указывать на проблему с памятью. Но я провел тестирование памяти и т.д.
Несколько журналов приложены в конце, но, пожалуйста, дайте мне знать, если вам нужна дополнительная информация.
Шаги, которые я уже предпринял:
Тестирование памяти:
Я провел memtest86+ на ночь с 10 циклами. Ошибок в памяти не обнаружено.
Нагрузочное тестирование:
Я проводил стресс-тесты для процессора (stress –cpu 20 –timeout 300) и графического процессора (FurMark_2.3.0.0_linux64), но система оставалась стабильной во время тестирования и не воспроизводила проблему.
Драйверы и дисплей:
Сначала я думал, что проблема может быть связана с MS Teams, но сбои продолжаются даже когда Teams не используется, хотя кажется, что они происходят чаще всего во время звонков в MS Teams. Это не меняется, если я использую его в браузере (с аппаратным ускорением и без) или через teams-for-linux / teams-for-linux –disableGpu. Но это также происходит, когда Teams не запущен или не в звонке. Например, если я использую только браузер с очень низкой нагрузкой.
Теперь я подозреваю, что внешний экран, подключенный через HDMI, может быть причастен, хотя я этого не подтвердил.
У меня есть проблемы как с X11, так и с Wayland, используя как драйвер nouveau с открытым исходным кодом, так и разные версии проприетарных драйверов NVIDIA (nvidia-driver-550, протестированный), но отключения происходят независимо от комбинации.
Обновления системы:
Все пакеты и ядра обновлены. Все прошивки также актуальны.
Обзор журналов:
Проверил /var/log/syslog и /var/log/kern.log, но ничего убедительного не найдено перед отключением.
Сертификация:
Согласно этой публикации (https://ubuntu.com/certified/202306-31718), Lenovo ThinkPad P14s Gen 4 даже сертифицирован для Ubuntu 22.04 LTS. В то время как я использую 24.04 LTS, я предполагаю, что сертификация должна применяться без значительных проблем.
В поисках помощи:
Я ищу идеи или предложения по устранению неполадок, в частности:
Любые потенциальные причины случайных отключений и перезагрузок, особенно связанные с внешними дисплеями или графикой.
Рекомендации по дальнейшей диагностике или файлам журналов, которые могли бы помочь выявить проблему.
Любые параметры ядра или изменения конфигурации, которые могли бы стабилизировать систему.
Заранее спасибо за любую помощь!
С уважением,
Кетос
x@dexdev:~$ sudo dmesg | grep -i error
[sudo] пароль для x:
[ 1.533738] RAS: Инициализация коллектора исправимых ошибок.
[ 5.862150] EDAC igen6 MC1: ОБРАБОТКА ОШИБКИ ПАМЯТИ IBECC
[ 5.862153] EDAC igen6 MC0: ОБРАБОТКА ОШИБКИ ПАМЯТИ IBECC
`
`
x@dexdev:~$ grep -i "error\|fail" /var/log/kern.log
2024-07-24T06:39:35.891513+02:00 dexdev kernel: pci 0000:03:00.0: ROM [mem size 0x00080000 pref]: не удалось назначить
2024-07-24T06:39:35.891712+02:00 dexdev kernel: RAS: Инициализация коллектора исправимых ошибок.
2024-07-24T06:39:35.891973+02:00 dexdev kernel: EDAC igen6 MC1: ОБРАБОТКА ОШИБКИ ПАМЯТИ IBECC
2024-07-24T06:39:35.891975+02:00 dexdev kernel: EDAC igen6 MC0: ОБРАБОТКА ОШИБКИ ПАМЯТИ IBECC
2024-07-24T06:39:35.892036+02:00 dexdev kernel: thermal thermal_zone8: не удалось прочитать тепловую зону (-61)
2024-07-24T06:39:35.892038+02:00 dexdev kernel: Bluetooth: hci0: Не удалось отправить данные прошивки (-71)
2024-07-24T06:39:35.892038+02:00 dexdev kernel: Bluetooth: hci0: отправка кадра не удалась (-19)
2024-07-24T06:39:35.892038+02:00 dexdev kernel: Bluetooth: hci0: сбой восстановления загрузки прошивки (-19)
2024-07-24T06:39:35.892039+02:00 dexdev kernel: Bluetooth: hci0: отправка кадра не удалась (-19)
2024-07-24T06:39:35.892039+02:00 dexdev kernel: Bluetooth: hci0: Не удалось прочитать поддерживаемые функции (-19)
2024-07-24T06:39:35.892040+02:00 dexdev kernel: Bluetooth: hci0: Ошибка при чтении отладочных функций
2024-07-24T06:39:35.892040+02:00 dexdev kernel: Bluetooth: hci0: отправка кадра не удалась (-19)
2024-07-24T06:39:35.892040+02:00 dexdev kernel: Bluetooth: hci0: Не удалось прочитать поддерживаемые функции MSFT (-19)
2024-07-24T07:34:04.143778+02:00 dexdev kernel: pci 0000:03:00.0: ROM [mem size 0x00080000 pref]: не удалось назначить
2024-07-24T07:34:04.144218+02:00 dexdev kernel: RAS: Инициализация коллектора исправимых ошибок.
2024-07-24T07:34:04.144566+02:00 dexdev kernel: EDAC igen6 MC1: ОБРАБОТКА ОШИБКИ ПАМЯТИ IBECC
2024-07-24T07:34:04.144570+02:00 dexdev kernel: EDAC igen6 MC0: ОБРАБОТКА ОШИБКИ ПАМЯТИ IBECC
2024-07-24T07:34:04.144706+02:00 dexdev kernel: thermal thermal_zone8: не удалось прочитать тепловую зону (-61)
`
Случайные отключения питания, происходящие без записи в журнал, являются классическим симптомом аппаратного сбоя(ов). Это не особенность программного обеспечения (кто бы этого хотел?).
Ubuntu не может работать должным образом на ненадежном оборудовании.
Случайные отключения питания чаще всего вызваны перегревом и неполадками блока питания. Есть много других менее распространенных причин.
У меня такая же проблема с точно таким же выводом dmesg. Я протестировал это на Wayland и X11, как вы, а также на xfce, unity и MATE на Mint.
Я также проводил тестирование памяти и прошел без ошибок.
Я использую двойную загрузку этой ПК с Windows 11 и работаю каждый день, без перезагрузок или проблем в Windows. Поэтому маловероятно, что оборудование дефектное, как утверждает вышеупомянутый комментатор.
Еще одно отличие – я сомневаюсь, что это связано с вашей видеокартой, потому что у меня версия с встроенной графикой Vega.
Ответ или решение
Здравствуйте, Ketos.
Ситуация, которую вы описываете, действительно может быть вызвана множеством факторов, и ни одна из возможностей не должна быть исключена на ранней стадии диагностики. Давайте рассмотрим несколько шагов и рекомендаций, которые могут помочь вам понять, что именно вызывает случайные перезагрузки вашего Lenovo ThinkPad P14s Gen 4 на Ubuntu 24.04 LTS.
Возможные причины и рекомендации:
-
Проблемы с питанием:
- Убедитесь, что адаптер питания работает исправно и не перегревается. Попробуйте использовать другой адаптер, если у вас есть такая возможность.
- Проверьте порты для подключения питания и другие подключения на предмет повреждений или ненадежного контакта.
-
Перегрев:
- Проверьте, не перегревается ли ваш ноутбук. Вы можете использовать утилиты, такие как
lm-sensors
, для мониторинга температур компонентов (ЦП, ГП, память) в реальном времени. - Убедитесь, что вентиляционные отверстия не заблокированы и что внутри корпуса нет накоплений пыли.
- Проверьте, не перегревается ли ваш ноутбук. Вы можете использовать утилиты, такие как
-
Проблемы с памятью и подсистемой взаимодействия с памятью:
- Хотя вы упомянули, что проводили тестирование памяти с помощью memtest и ошибок не обнаружено, стоит провести дополнительные проверки. Например, проверьте, правильно ли установлены планки памяти.
- Также попробуйте одну планку памяти поочередно, чтобы исключить возможность неисправной планки.
-
Проблемы с драйверами:
- Хотя вы уже тестировали различные драйверы для графического процессора, стоит обратить внимание на ошибки, которые вы упомянули, особенно связанные с
EDAC
иIBECC MEMORY ERROR
. Возможно, это указывает на проблемы с совместимостью или конфигурацией драйверов. - Рекомендуется попробовать другие версии драйверов (как открытых, так и проприетарных) и удостовериться, что они действительно удалены, прежде чем устанавливать новые.
- Хотя вы уже тестировали различные драйверы для графического процессора, стоит обратить внимание на ошибки, которые вы упомянули, особенно связанные с
-
Внешние устройства:
- Вы упомянули, что возможно проблема связана с внешним экраном через HDMI. Попробуйте отключить все внешние устройства и проверьте, сохраняется ли проблема. Если нет, подключайте устройства по одному, чтобы выяснить, какое из них может вызывать проблемы.
-
Логи и диагностика:
- Проверьте другие логи, такие как
/var/log/syslog
,journalctl -xe
, и попробуйте выявить закономерности в моментах, когда происходят перезагрузки. - Если проблема связана с памятью, возможно, вам стоит учитывать и другие ошибки памяти (не только те, что фиксирует memtest).
- Проверьте другие логи, такие как
Предложения по настройке ядра:
Попробуйте изменить некоторые параметры ядра, которые могут улучшить стабильность системы. Например, включение параметра noacpi
или acpi=off
может помочь в некоторых случаях, особенно если проблема связана с управлением питанием.
Заключение:
Понять причины случайных отключений иногда может быть крайне сложно, и требуется некоторый анализ. Я рекомендую вам предоставить больше информации о своем оборудовании и конфигурации операционной системы, а также продолжить тестирование с упомянутыми рекомендациями. Если проблема продолжает проявляться, возможно, стоит обратиться к специалисту по ремонту оборудования или к службе поддержки Lenovo для более глубокого анализа.
Желаю удачи в диагностике вашей проблемы! Если у вас есть дополнительные вопросы, не стесняйтесь спрашивать.