Причины зависания системы без паники ядра

Question 1

У меня есть встроенное устройство/система с процессором i.MX8M mini, работающим на базе Debian Linux с ядром версии 6.12.8.

Если я запускаю определенное программное обеспечение на этом устройстве, система зависает только через 1-3 дня работы. Изначально устройство сбрасывалось сторожевым таймером, но после отключения сторожевого таймера мы видим состояние “заморозки”. Да, функциональность сторожевого таймера работает нормально 🙂

Проблема только возникает с этим (довольно сложным) программным обеспечением. Запуская другие программы или ПО в течение недель, мы никогда не сталкивались с таким зависанием (у меня нет доступа к исходному коду этого программного обеспечения).

На терминале не отображается ошибка ядра, и в лог-файлах также нет никаких ошибок ядра. В состоянии “заморозки” система не реагирует на любые попытки подключения.

Мой вопрос: как пользовательский код может вызвать такое наблюдаемое состояние зависания системы, не вызывая паники ядра или каких-либо сообщений от ядра?

Или наоборот: если вас попросят написать пользовательский код, который полностью заморозит систему Linux без отображения каких-либо сообщений ядра, каким был бы этот код?

Question 2

Возможно, система не зависла, а стала настолько медленной, что вы не видите никаких реакций.

Я предлагаю ограничить

использование оперативной памяти
использование процессора (приоритет)
приоритет ввода/вывода

этого приложения. Возможно, это предотвратит “заморозку”.

Кроме того, я предлагаю запустить getty на последовательном порту.

Question 3

Если вы графически отобразите использование оперативной памяти приложением с течением времени и увидите, что оно формирует пиловидный узор: постепенное увеличение без стабилизации на уровне, который соответствовал бы наивысшей нагрузке, и затем резкое снижение до начального уровня каждый раз, когда приложение перезапускается или система перезагружается, это обычно является признаком утечки памяти (или других ресурсов). Хорошая программа без утечек в конечном итоге стабилизируется на определенном уровне использования памяти, если (максимальная) нагрузка остается постоянной.

Если у проприетарного программного обеспечения есть доступ к какому-либо аппаратному устройству, ошибка в программном обеспечении может привести к “захвату” аппаратного устройства шины, к которой оно подключено. Если это основная системная шина, это, несомненно, зависнет систему, так как практически не будет возможности передать сообщение, если отсутствует активность шины.

(В ранней истории вычислительной техники для этого были “мигающие огни”: если ряд/матрица мигающих огней замерла в определенном состоянии, это означало, что процессор или системная шина зависли. К сожалению, современные системные шины работают на такой высокой частоте тактовых импульсов, что их невозможно контролировать человеческими органами чувств таким образом.)

Вы должны убедиться, что включена функциональность Magic SysRq, и разобраться, как послать сигнал BREAK на последовательный консольный порт. Когда система зависает, вы могли бы попробовать <BREAK> + L и/или <BREAK>+ W, чтобы увидеть, может ли ядро все еще выводить что-либо, и если да, то что выполняют процессоры в этот момент и есть ли какие-либо процессы, заблокированные без возможности прерывания.

Причины зависания системы без паники ядра

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Анализ использования ресурсов

Аппаратные аспекты

Диагностика

Заключение