Как определить, является ли “NMI watchdog: BUG: soft lockup” проблемой оборудования или программного обеспечения?

Вопрос или проблема

Soft Lockup

dmesg сообщает на моем ноутбуке, уже довольно давно, NMI watchdog: BUG: soft lockup каждый раз, когда я пытаюсь использовать updatedb или firefox. Образцы того, что сообщается, опубликованы на https://github.com/zfsonlinux/zfs/issues/4536#issuecomment-280894134.

Связанные вопросы:

Я также читал/комментировал на
https://github.com/zfsonlinux/zfs/issues/4536

Вопрос

Как я могу определить, является ли это проблемой с оборудованием или, как я думаю, подтвердить, что это проблема, связанная с ядром/программным обеспечением?


Детали

Дистрибутив Linux

Funtoo-Linux, постоянно обновляемый дистрибутив

Ядра

Я (по крайней мере) наблюдал “BUG” при использовании следующих версий ядра:

pf

  • 4.11_p4-pf
  • 4.8_p8
  • 4.5_p4

ck

  • 4.12.7-ck

debian

  • lts-4.9.30
  • 4.8.x
  • 4.7.8

Конфигурация

Я использую пользовательскую конфигурацию для компиляции ядра. Это в основном та же конфигурация, которую я использовал(а) долгое время, когда не было проблемы “soft lockup” или чего-либо связанного с “watchdog”.

Я могу скопировать или добавить ссылку на файл конфигурации. Однако я нашел(а) два важных параметра, которые “требуются”

CONFIG_KALLSYMS=y
CONFIG_PREEMPT_NONE=y

ZFS

Я наблюдал(а) “BUG” при использовании версий ZoL

  • 0.6.5.11
  • 0.6.5.10
  • 0.6.5.9
  • 0.6.5.8
  • 0.6.5.3

Хотя это может быть проблемой с оборудованием, однако из-за зрелости кода ZFS для Linux и множества людей, жалующихся на ваше сообщение в нескольких версиях, я склонен(а) полагать, что это ошибка программного обеспечения.

Существуют множественные ошибки, связанные с гоночными условиями в коде ZFS, и истина в том, что они все еще не полностью надежны для производственных систем.

Если тот ноутбук является у вас тестовой системой/системой для игр, хороший тест для ZFS, чтобы исключить проблемы с программным обеспечением по сравнению с оборудованием, будет попробовать ZFS+FreeBSD, которая имеет более проверенную и стабильную кодовую базу.

Если у вас также в прошлом была известная стабильная конфигурация с Linux+zfs, как указано в ваших дополнительных комментариях, это может быть хорошей идеей вернуться и протестировать это, чтобы исключить возможные проблемы.

Что касается попытки отладки кода уровня ядра, вы можете попробовать sysdig, но если система зависнет, возможно, она умрет прежде, чем выплюнет журналы, которые могут привести к корню проблемы (или нет).

Ответ или решение

Определение природы проблемы "NMI watchdog: BUG: soft lockup": аппаратная или программная?

Если вы столкнулись с сообщением об ошибке "NMI watchdog: BUG: soft lockup" на вашем ноутбуке каждый раз при использовании updatedb или firefox, важно выяснить, является ли эта проблема аппаратной или программной. Ошибка часто инспирирована системными интеграциями и модулями, которые замедляют работу ядра, но точность диагностики обуславливает эффективное решение проблемы.

Шаги для диагностики

  1. Проверка аппаратных компонентов:

    • Температура и состояние процессора: Используйте инструменты мониторинга, такие как lm-sensors или i7z, для оценки температуры CPU и выполнения стресс-тестов с помощью stress или prime95, чтобы выявить аппаратные сбои.
    • Память: Проверьте оперативную память с помощью утилит memtest86+ для выявления возможных дефектов.
  2. Анализ системной конфигурации:

    • Ядро и драйверы: Проблема может быть связана с некорректными драйверами или конфигурацией ядра. Проверьте, есть ли доступные обновления для вашего дистрибутива Linux (в вашем случае, Funtoo-Linux) и актуализируйте их.
    • Конфигурация ядра: Так как вы используете собственные конфигурации для компиляции ядра, рассмотрите возможность временного возврата к стандартной конфигурации, чтобы проверить, сохраняется ли проблема. ОС для тестирования: попробуйте использовать Debian или другую более стабильную сборку.
  3. Оновление и тестирование ZFS:

    • Учитывая проблемы с ZFS, проверьте на наличие обновлений для ZFS и попробуйте запускать систему с актуальной версией на более стабильной платформе, такой как FreeBSD, чтобы наблюдать за поведением.
    • Другие файловые системы: Как альтернатива, временно используйте другие файловые системы, чтобы определить, связан ли баг конкретно с ZFS.
  4. Отладка и диагностика:

    • Логи ядра и системы: Параметры dmesg и syslog могут дать вам представление о том, где и когда возникает проблема. Ведите дополнительно системные логи для последующего анализа.
    • Использование инструментов диагностики: Попробуйте использовать sysdig для мониторинга системных вызовов и процессов в реальном времени. Это может помочь выявить паттерны, которые запускают проблему.
  5. Анализ сообществ и документации:

    • Проблема может быть известна среди пользователей вашего дистрибутива или ZFS. Ознакомьтесь с аналогичными проблемами на форумах, например, на GitHub или Unix & Linux Stack Exchange, где пользователи делятся своими решениями.

Заключение

Диагностика "NMI watchdog: BUG: soft lockup" требует комплексного подхода, учитывающего как программные, так и аппаратные аспекты. Следуя вышеуказанным шагам, вы сможете точнее диагностировать проблему и определить, связана ли она с аппаратным обеспечением или с конкретными компонентами программного стека Linux и ZFS.

Обращаясь к сообществу и используя проверенные методики, вы увеличите свои шансы на успешное выявление источника проблемы и его последующее устранение.

Оцените материал
Добавить комментарий

Капча загружается...