Проблемы с производительностью на контроллере Broadcom 9600W-16e при использовании дисковых полок Drop Perf

Вопрос или проблема

Я не могу понять, почему это происходит. У меня контроллер Broadcom 9600W-16e. Есть два дисковых модуля, и контроллер подключен двумя кабелями SAS 4 к расширителю дискового модуля. Из первого дискового модуля другой модуль подключен двумя кабелями SAS 4. Во втором дисковом модуле установлено 11 твердотельных накопителей Samsung SAS 4 и настроено на JBOD.

Проблема:
Когда я нагружаю каждый диск с помощью fio с bs=1M, numjobs=1, iodepth=32 на 8 дисках во втором модуле, общая производительность составляет 14500 МБ/с. Однако, когда я запускаю тест на 9 дисках, общая производительность падает на 8% до 13500 МБ/с; для 10 дисков она падает до 12700 МБ/с; а для 11 дисков она еще больше падает до 11600 МБ/с.

Если я подключаю этот модуль напрямую к серверу, общая скорость для 8-9-10-11 дисков остается стабильной на уровне около 16500 МБ/с.

Что я заметил, так это то, что при подключении любого модуля к контроллеру, используя storcli2 /c0 show в списке механизмов показывает: Состояние = Неисправно, но я не вижу никаких проблем в работе.

Операционная система: Ubuntu.
Версия прошивки контроллера: 8.10.1
Драйвер: mpi3mr

Ответ или решение

Проблемы производительности на контроллере Broadcom 9600W-16e при использовании дисковых полок

Введение

Ваша проблема с контроллером Broadcom 9600W-16e при работе с дисковыми полками вызывает серьезные опасения, особенно в контексте падения производительности при увеличении нагрузки на диски. Давайте подробно рассмотрим возможные причины данной ситуации и предложим рекомендации по их устранению.

Основные факторы анализа производительности

  1. Конфигурация системы:

    • Контроллер 9600W-16e соединён с двумя дисковыми полками через два SAS 4 кабеля.
    • Вторая полка с 11 SSD-дисками Samsung настроена в режиме JBOD (Just a Bunch Of Disks).
  2. Тестирование производительности:

    • При выполнении теста с использованием fio, скорость чтения/записи на 8 дисках составила 14500 MB/s. Однако при добавлении диска производительность значительно падает:
      • 9 дисков: 13500 MB/s (снижение на 8%)
      • 10 дисков: 12700 MB/s
      • 11 дисков: 11600 MB/s
  3. Сравнение производительности:

    • При подключении дисковой полки непосредственно к серверу производительность остаётся стабильной на уровне 16500 MB/s при использовании 8-11 дисков.

Возможные причины проблемы

  1. Ограничения полосы пропускания SAS:

    • Хотя SAS 4 предлагает высокую скорость передачи данных, два кабеля могут создавать узкое место в случае, если контроллер не может обрабатывать данные с высокой степенью параллелизма. Это может особенно проявляться при использовании нескольких дисков, создающих большую нагрузку.
  2. Проблемы с конфигурациями и драйверами:

    • Вы упомянули, что при использовании команды storcli2 /c0 show состояние шины указывает на "Faulty". Это может свидетельствовать о потенциальных проблемах в настройке или даже о несовместимости с прошивкой (версия 8.10.1) и драйвером mpi3mr.
    • Проверьте наличие обновлений прошивки для контроллера и дисковых полок, а также обновите драйвер до последней стабильной версии.
  3. Проблемы с кэшированием:

    • Контроллеры могут включать кэширование записей. Если кэширование отключено или неправильно настроено, это может негативно влиять на производительность дисковых систем, особенно в сценах с высокой нагрузкой.
  4. Параметры системы и ОС:

    • Убедитесь, что параметры настройки системы (например, настройки планировщика I/O) соответствуют требованиям для оптимальной работы с SSD. Проверка параметров noatime, nodiratime и elevator в вашем фс также может помочь.

Рекомендации по улучшению производительности

  1. Обновление прошивки и драйверов:

    • Проверка и обновление прошивки контроллера и дисковых полок может устранить возможные несовместимости и проблемы.
  2. Переименование соединений:

    • Если возможно, попробуйте изменить конфигурацию подключения, например, использовать больше SAS-кабелей, если это позволяет архитектура.
  3. Мониторинг состояния здоровья дисков:

    • Регулярно выполняйте диагностику на предмет сбоев и состояния дисков. Возможно, у вас есть незначительные сбои, которые не отображаются явно, но влияют на общую производительность.
  4. Настройка I/O параметров:

    • Оптимизация параметров ввода-вывода в Ubuntu и использование специализированных параметров для SSD могут помочь в улучшении производительности.
  5. Параллелизм и деградация производительности:

    • Убедитесь, что количество файлов параллельно работающих в fio соответствует возможностям вашей системы. Слишком высокая степень параллелизма может привести к заторам.
  6. Обсуждение на форумах и поддержку:

    • Обсуждение проблемы на специализированных форумах или обращение в службу поддержки Broadcom может помочь выявить специфические для вашего оборудования проблемы.

Заключение

Феномен падения производительности при увеличении нагрузки на контроллер Broadcom 9600W-16e может быть обусловлен множеством факторов, начиная от конфигураций и заканчивая программным обеспечением или ограничениями самой архитектуры подключаемых дисков. Рекомендуется систематически подойти к диагностике проблемы, следуя перечисленным шагам, для достижения максимальной эффективности и производительности вашего хранилища.

Оцените материал
Добавить комментарий

Капча загружается...