Вопрос или проблема
У меня есть действительно странная, но воспроизводимая проблема, идентичная на похожих машинах.
- ОС: Ubuntu 22.04 или 24.04 (на отдельном массиве RAID-1)
- RAID-контроллер: Adaptec microsemi 3152-8i, кэш 2 ГБ, работающий с дополнительными массивами RAID 5 и 6 объемом 40 ТБ или более
- ПК: 40 ядер, 128 ГБ ОЗУ
- Виртуальная память: 128 ГБ
Каждый раз, когда я записываю (rsync) большое количество файлов объемом до 120 ГБ или более (размер файла) до 230 ГБ или более (общая передача) на большие массивы RAID, ПК останавливает свою процедуру записи и “размонтирует” массивы (диск ОС не поврежден).
Принудительная перезагрузка затем заставляет ПК записывать большие объемы данных более 10 минут на диск ОС, прежде чем снова перезагрузиться обычным способом.
У меня нет понятия, с чего начать искать в логах или на что обратить внимание.
Ответ или решение
Проблема, которую вы описали, связана с некорректной работой RAID-контроллера Adaptec Microsemi 3152-8i под нагрузкой при записи больших объемов данных. Ваша система автоматически размонтирует RAID-массивы, что может указывать на несколько потенциальных проблем. Ниже приведены шаги, которые помогут вам диагностировать и, возможно, устранить данную проблему.
Шаги по диагностике и устранению проблемы:
-
Проверка логов системы:
- Начните с просмотра системных логов, использовав команды:
sudo dmesg | grep -i error sudo less /var/log/syslog sudo less /var/log/kern.log
- Обратите внимание на сообщения о ошибках, связанных с RAID-контроллером или файловой системой, которые могут предшествовать размонтированию.
- Начните с просмотра системных логов, использовав команды:
-
Мониторинг состояния RAID:
- Убедитесь, что RAID-контроллер и его кэш находятся в исправном состоянии. Используйте утилиты для мониторинга состояния RAID, например,
MegaCLI
илиAdaptec Storage Manager
, если они доступны для вашего контроллера. - Проверьте, не происходят ли сбои в работе дисков RAID.
- Убедитесь, что RAID-контроллер и его кэш находятся в исправном состоянии. Используйте утилиты для мониторинга состояния RAID, например,
-
Настройки кэша RAID:
- Проверьте настройки кэширования вашего контроллера. Возможные настройки включают «write-back» и «write-through». Ваша проблема может быть связана с тем, что кэш заполнен, и система не может завершить операции записи.
- Попробуйте временно отключить кэширование записи (если это возможно), чтобы увидеть, устраняет ли это проблему.
-
Изучение конфигурации системы:
- Убедитесь, что ваша система использует последние драйвера для RAID-контроллера. Обновите драйвера, если это необходимо.
- Также проверьте, доступно ли в вашей версии BIOS/UEFI обновление, так как обновление прошивки может помочь улучшить стабильность.
-
Проверка параметров системы:
- Убедитесь, что ваш
swappiness
настроен корректно (рекомендуется значение от 10 до 30 для серверов с достаточным объемом RAM). - Оцените использование I/O и параметры
vm.dirty_ratio
,vm.dirty_background_ratio
. Для серьезных нагрузок можно увеличить значения, чтобы дать системе больше времени записывать данные на диск.
- Убедитесь, что ваш
-
Тестирование на других ОС или конфигурациях:
- Если возможно, проверьте поведение системы на другой версии ядра или дистрибутива Linux. Иногда проблемы могут быть связаны именно с версией ядра.
- Рассмотрите возможность тестирования на другой аппаратуре, чтобы исключить возможность аппаратного сбоя.
-
Обратитесь в техническую поддержку:
- Если все вышеперечисленное не привело к устранению проблемы, рекомендуем обратиться в техническую поддержку Adaptec или Microsemi. Возможно, они уже сталкивались с подобными ситуациями и смогут предложить решение.
Заключение:
Проблема с размонтированием RAID-массивов под нагрузкой требует комплексного подхода к диагностике. Следуйте вышеуказанным шагам для выявления и устранения возможных причин. Если вы найдете специфические ошибки в логах или получите ошибки во время тестов, это поможет вам лучше понять источник проблемы и потенциальные пути решения.