redhat + DELL + Запрос на сброс контроллера из-за тайм-аута ввода-вывода

Содержание

Вопрос или проблема
Ответ или решение
Вопрос: Контроллер сброса запрашивается из-за таймаута ввода-вывода на сервере Dell с Red Hat
Введение
Объяснение проблемы
Анализ журналов
Рекомендации по разрешению проблемы
Заключение

Вопрос или проблема

У нас есть сервер DELL с iDRAC (Интегрированный контроллер удаленного доступа Dell). Обычно аппаратные проблемы, связанные с контроллерами, хранилищем или дисками, рассматриваются через iDRAC. Однако в нашем случае мы видим, что ядро Red Hat Linux сообщает сообщение – Запрос на сброс контроллера из-за таймаута ввода-вывода, в то время как iDRAC ничего не показывает.

Мне интересно, почему ядро более чувствительно, чем iDRAC, и насколько серьезны эти сообщения.

[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#7 CDB: Write(16) 8a 00 00 00 00 01 07 22 b2 00 00 00 02 00 00 00
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: задача отменена: НЕУДАЧА scmd(ffffa06725a9f700)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#6 задача отменена для scmd(ffffa04002669880)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#6 CDB: Write(16) 8a 00 00 00 00 01 07 23 c0 00 00 00 02 00 00 00
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: задача отменена: НЕУДАЧА scmd(ffffa04002669880)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#5 задача отменена для scmd(ffffa03ff4c378c0)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#5 CDB: Write(16) 8a 00 00 00 00 01 14 80 01 08 00 00 00 08 00 00
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: задача отменена: НЕУДАЧА scmd(ffffa03ff4c378c0)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#4 задача отменена для scmd(ffffa0400266ad80)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#4 CDB: Write(16) 8a 00 00 00 00 01 07 23 d8 00 00 00 02 00 00 00
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: задача отменена: НЕУДАЧА scmd(ffffa0400266ad80)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#3 задача отменена для scmd(ffffa03ff4c35940)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#3 CDB: Write(16) 8a 00 00 00 00 01 15 c1 91 08 00 00 00 10 00 00
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: задача отменена: НЕУДАЧА scmd(ffffa03ff4c35940)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#1 задача отменена для scmd(ffffa0400266f540)
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: [sdb] tag#1 CDB: Write(16) 8a 00 00 00 00 01 07 23 ea 00 00 00 02 00 00 00
[ср 27 ноя 14:12:24 2024] sd 0:0:0:0: задача отменена: НЕУДАЧА scmd(ffffa0400266f540)
[ср 27 ноя 14:14:10 2024] sd 0:0:0:0: вызван сброс цели для scmd(ffffa06725a9e580)
[ср 27 ноя 14:14:10 2024] sd 0:0:0:0: [sdb] tag#12 megasas: сброс цели НЕУДАЧА!!
[ср 27 ноя 14:14:10 2024] sd 0:0:0:0: [sdb] tag#1 Запрос на сброс контроллера из-за таймаута ввода-вывода

Ответ или решение

Вопрос: Контроллер сброса запрашивается из-за таймаута ввода-вывода на сервере Dell с Red Hat

Введение

Ваша ситуация с сервером Dell, на котором работает Red Hat Linux, вызывает ряд технических вопросов. Вы упомянули о сообщении:

Контроллер сброса запрашивается из-за таймаута ввода-вывода

и о том, что iDRAC (интегрированный контроллер удаленного доступа Dell) не отображает никаких проблем. В этой статье мы обсудим возможные причины возникновения этой ошибки, различия в восприятии между ядром Linux и iDRAC, а также потенциальные шаги по разрешению проблемы.

Объяснение проблемы

На основе логов системы можно увидеть, что происходит множественные попытки операции записи, которые завершаются неудачами с кодом task abort: FAILED. Это означает, что система не получает ожидаемых ответов от устройства хранения (диска или контроллера RAID), что приводит к повышению времени ожидания (таймауту). Когда время ожидания превышает установленный предел, ядро Linux инициирует сброс контроллера. Это поведение указывает на важную и потенциально серьезную проблему с компонентами системного хранения.

Ядро Linux против iDRAC:
- Ядро Linux более чувствительно к задержкам в работе устройств ввода-вывода. Оно настроено на мониторинг состояния устройств и может инициировать сброс для поддержания стабильной работы системы.
- iDRAC, в свою очередь, менее чувствителен к временным задержкам и может не показывать немедленных предупреждений о проблемах, пока они не станут критическими.
Серьезность сообщения:
- Сообщение о сбросе контроллера из-за таймаута ввода-вывода сигнализирует о потенциальной неисправности в среднем между ядром и физическим устройством, возможно, из-за сбоя в контроллере RAID или самого диска. Это может привести к потере данных или снижению производительности системы.

Анализ журналов

Логи, которые вы представили, показывают несколько последовательных вызовов task abort. Это означает, что контроллер не может завершить операции записи, что и вызывает состояние таймаута. Такой тип проблем может иметь несколько причин:

Неисправные устройства хранения: один или несколько дисков могут иметь физические повреждения или сбои.
Проблемы с драйверами: используемые драйвера могут быть устаревшими или несовместимыми с текущими версиями аппаратного обеспечения.
Перегрузка контроллера: если на контроллер поступает слишком много команд одновременно, это может вызвать задержки в его работе.
Конфигурационные ошибки: неправильные настройки RAID или параметры контроля входа-выхода могут привести к таким сбоям.

Заключение

Ошибка «Контроллер сброса запрашивается из-за таймаута ввода-вывода» на сервере Dell под управлением Red Hat требует внимательного подхода и быстрой реакции для предотвращения возможных последствий. Важно учитывать, что проблемы со системой хранения могут вызывать серьезные сбои в работе вычислительной инфраструктуры, поэтому рекомендуется обеспечить регулярное резервное копирование данных и мониторинг состояния оборудования.