Ubuntu 22.04/24.04 контроллер кеша RAID Microsemi вызывает принудительное размонтирование при интенсивной записи данных

Вопрос или проблема

У меня есть действительно странная, но воспроизводимая проблема, идентичная на похожих машинах.

  • ОС: Ubuntu 22.04 или 24.04 (на отдельном массиве RAID-1)
  • RAID-контроллер: Adaptec microsemi 3152-8i, кэш 2 ГБ, работающий с дополнительными массивами RAID 5 и 6 объемом 40 ТБ или более
  • ПК: 40 ядер, 128 ГБ ОЗУ
  • Виртуальная память: 128 ГБ

Каждый раз, когда я записываю (rsync) большое количество файлов объемом до 120 ГБ или более (размер файла) до 230 ГБ или более (общая передача) на большие массивы RAID, ПК останавливает свою процедуру записи и “размонтирует” массивы (диск ОС не поврежден).

Принудительная перезагрузка затем заставляет ПК записывать большие объемы данных более 10 минут на диск ОС, прежде чем снова перезагрузиться обычным способом.

У меня нет понятия, с чего начать искать в логах или на что обратить внимание.

Ответ или решение

Проблема, которую вы описали, связана с некорректной работой RAID-контроллера Adaptec Microsemi 3152-8i под нагрузкой при записи больших объемов данных. Ваша система автоматически размонтирует RAID-массивы, что может указывать на несколько потенциальных проблем. Ниже приведены шаги, которые помогут вам диагностировать и, возможно, устранить данную проблему.

Шаги по диагностике и устранению проблемы:

  1. Проверка логов системы:

    • Начните с просмотра системных логов, использовав команды:
      sudo dmesg | grep -i error
      sudo less /var/log/syslog
      sudo less /var/log/kern.log
    • Обратите внимание на сообщения о ошибках, связанных с RAID-контроллером или файловой системой, которые могут предшествовать размонтированию.
  2. Мониторинг состояния RAID:

    • Убедитесь, что RAID-контроллер и его кэш находятся в исправном состоянии. Используйте утилиты для мониторинга состояния RAID, например, MegaCLI или Adaptec Storage Manager, если они доступны для вашего контроллера.
    • Проверьте, не происходят ли сбои в работе дисков RAID.
  3. Настройки кэша RAID:

    • Проверьте настройки кэширования вашего контроллера. Возможные настройки включают «write-back» и «write-through». Ваша проблема может быть связана с тем, что кэш заполнен, и система не может завершить операции записи.
    • Попробуйте временно отключить кэширование записи (если это возможно), чтобы увидеть, устраняет ли это проблему.
  4. Изучение конфигурации системы:

    • Убедитесь, что ваша система использует последние драйвера для RAID-контроллера. Обновите драйвера, если это необходимо.
    • Также проверьте, доступно ли в вашей версии BIOS/UEFI обновление, так как обновление прошивки может помочь улучшить стабильность.
  5. Проверка параметров системы:

    • Убедитесь, что ваш swappiness настроен корректно (рекомендуется значение от 10 до 30 для серверов с достаточным объемом RAM).
    • Оцените использование I/O и параметры vm.dirty_ratio, vm.dirty_background_ratio. Для серьезных нагрузок можно увеличить значения, чтобы дать системе больше времени записывать данные на диск.
  6. Тестирование на других ОС или конфигурациях:

    • Если возможно, проверьте поведение системы на другой версии ядра или дистрибутива Linux. Иногда проблемы могут быть связаны именно с версией ядра.
    • Рассмотрите возможность тестирования на другой аппаратуре, чтобы исключить возможность аппаратного сбоя.
  7. Обратитесь в техническую поддержку:

    • Если все вышеперечисленное не привело к устранению проблемы, рекомендуем обратиться в техническую поддержку Adaptec или Microsemi. Возможно, они уже сталкивались с подобными ситуациями и смогут предложить решение.

Заключение:

Проблема с размонтированием RAID-массивов под нагрузкой требует комплексного подхода к диагностике. Следуйте вышеуказанным шагам для выявления и устранения возможных причин. Если вы найдете специфические ошибки в логах или получите ошибки во время тестов, это поможет вам лучше понять источник проблемы и потенциальные пути решения.

Оцените материал
Добавить комментарий

Капча загружается...