Проблема ядра Linux с RAID: megaraid_sas 0000:43:00.0: AMD-Vi: Событие зафиксировано [IO_PAGE_FAULT domain=0x000e address=0xa518d000 flags=0x0020]

Вопрос или проблема

После обновления Proxmox с 7.2 до 8.2 и ядра Linux с 5.x до 6.8.4-2-pve (Proxmox) у меня возникли проблемы с
ядерным модулем megaraid_sas для контроллера AVAGO MegaRAID SAS 9440-8i.

Сервер запускается, но когда я включаю виртуальные машины, через пару минут я получаю ошибки:

Oct 12 00:16:00 host6 kernel: megaraid_sas 0000:43:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000e address=0xa518d000 flags=0x0020]
Oct 12 00:16:00 host6 kernel: megaraid_sas 0000:43:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000e address=0xa518dd00 flags=0x0020]

После этого сервер полностью зависает, так как система пере-монтируется в режим только для чтения:

EXT4-fs error (device dm-4): ext4_journal_check_start:84 comm pvescheduler: Detected aborted journal
EXT4-fs error (device dm-4): ext4_journal_check_start:84 comm rm:main R:Reg Detected aborted journal
EXT4-fs error (device dm-4): Remounting filesystem read-only

Контроллер: AVAGO MegaRAID SAS 9440-8i

Версия прошивки: 5.220.01-3691

Я думаю, что проблема связана с самим ядром, поэтому, возможно, у кого-то из вас есть аналогичная проблема.

Заранее спасибо.

Ответ или решение

Проблема с ядром Linux и контроллером RAID, с которым вы столкнулись при обновлении Proxmox с версии 7.2 до 8.2 и ядра Linux с версии 5.x до 6.8.4-2-pve, действительно вызывает беспокойство. Давайте рассмотрим возможные причины и предложим шаги для разрешения проблемы.

Описание проблемы

После обновления сервер, использующий контроллер AVAGO MegaRAID SAS 9440-8i, начинает показывать ошибки, связанные с модулем megaraid_sas. Ошибки в журнале событий указывают на сбой ввода-вывода (IO_PAGE_FAULT), связанный с AMD-Vi (SVM – Secure Virtual Machine) и адресами памяти, которые, как правило, указывают на проблемы с управлением памятью или совместимостью оборудования.

Анализ ошибок

Сообщения об ошибках в журнале:

megaraid_sas 0000:43:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000e address=0xa518d000 flags=0x0020]

Эти ошибки могут указывать на проблемы с виртуальной адресацией памяти и могут быть связаны с настройками IOMMU (Input-Output Memory Management Unit), которые могут нарушать работу драйвера megaraid_sas.

Как только происходит сбой, система начинает смещать файловую систему в режим только для чтения:

EXT4-fs error (device dm-4): ext4_journal_check_start:84 comm pvescheduler: Detected aborted journal
EXT4-fs error (device dm-4): Remounting filesystem read-only

Это указывает на более серьезные проблемы с целостностью данных на уровне файловой системы, что может быть вызвано потерей связи с RAID-контроллером или проблемами в управлении памятью.

Возможные решения

  1. Обновление прошивки контроллера: Первым шагом следует проверить наличие обновления прошивки для вашего контроллера AVAGO MegaRAID SAS 9440-8i. Нередко обновления могут исправить такие проблемы совместимости.

  2. Параметры загрузки ядра: Попробуйте изменить параметры загрузки ядра, добавив iommu=soft или iommu=pt, чтобы переключить использование IOMMU, что может устранить проблемы с адресацией памяти.

  3. Настройки BIOS: Проверьте настройки BIOS, связанные с IOMMU и виртуализацией. Возможно, необходимо отключить определенные функции, чтобы устранить конфликты, особенно если сервер использует виртуальные машины.

  4. Снижение версии ядра: Если проблема сохраняется, рекомендуется рассмотреть возможность отката к предыдущей версии ядра 5.x, которая работала без сбоев, пока не будет более стабильного обновления ядра.

  5. Отладка и мониторинг: Используйте инструменты для мониторинга состояния контроллера RAID и выполнения диагностики ошибок, так как это может помочь в выявлении причин сбоев.

  6. Сообщество и поддержка: Рассмотрите возможность обращения за помощью к сообществу Proxmox или на форумы поддержки, так как проблемы совместимости и ошибки могут быть известны другим пользователям.

Заключение

Проблемы, которые вы испытываете, могут возникать из-за нескольких факторов, включая аппаратные сбои, несовместимость драйверов и настройки системы. Следуйте предложенным шагам для устранения неполадок, и это должно помочь вам восстановить стабильную работу вашего сервера. Если решением проблемы не удастся достичь, профессиональная поддержка может оказаться необходимой для дальнейшего анализа.

Оцените материал
Добавить комментарий

Капча загружается...