Плохая производительность диска на машинах Dell из-за несоответствий с контроллером или версией прошивки.

Вопрос или проблема

Мы недавно установили кластер Hadoop, используя машины Dell, такие как R750/R760 и т. д. В каждой машине 14 дисков, каждый диск имеет размер 16 ТБ, и кластер Hadoop установлен на версии RHEL 8.6

По какой-то неясной причине мы обнаружили, что производительность дисков в этом кластере довольно уникальна: использование дисков достигает 100% или колеблется таким образом, что прыгает до 100%. Это контрастирует с другим кластером, где использование дисков остается очень низким, в пределах от 10% до 20%.

Поэтому я хотел бы задать базовый вопрос о дисках: возможно ли, что такое поведение использования дисков вызвано несоответствиями между дисками и контроллером, версией прошивки контроллера или дисками и оборудованием машины?

Ответ или решение

Ошибки и неполадки при работе дисковых систем на серверном оборудовании, особенно таких сложных, как в вашем случае с кластером Hadoop на машинах Dell R750/R760 с операционной системой RHEL 8.6, могут возникать по разным причинам. Зачастую такие проблемы связаны с несовместимостью или устаревшими версиями прошивки и контроллеров, которые управляют работой дисков. Рассмотрим данную проблему более подробно через призму теории, примеров и применения.

Теоретический аспект

В основе проблем деградации производительности дисковой подсистемы может лежать несколько факторов. Во-первых, это несовместимость или устаревание прошивки дискового контроллера. Контроллер управляет взаимодействием между операционной системой и накопителями, и от его корректной работы зависит производительность на уровне ввода-вывода. Прошивка, которая стала нефункциональной или несовместимой с новой версией оборудования или операционной системы, может вызвать значительное замедление операций с данными.

Во-вторых, физическое состояние дисков и их прошивки также играют критическую роль. Различия в прошивках дисков, даже когда они поставляются от одного производителя, могут привести к неконсистентности в работе ввиду различий в обработке команд чтения/записи. Это может вызвать аномальные пики или падения производительности.

Наконец, особенности настроек и конфигурации Hadoop также могут вызвать перегрузки. Некорректная настройка параметров конфигурации, таких как параметры ввода-вывода, планировщики заданий или стратегия распределения нагрузки, может привести к неравномерному распределению нагрузки на дисковую подсистему.

Примеры на практике

Чтобы понять, насколько серьёзны проблемы с контроллерами и прошивкой, можно привести пример из опыта работы с подобными конфигурациями. В одной из кейсовых ситуаций, серверы Dell R740, оснащённые 16-дисковыми RAID массивами, демонстрировали аналогичные проблемы. Исследования показали, что проблема заключалась в устаревшей версии прошивки RAID-контроллера, которая некорректно работала с обновленной версией операционной системы RHEL. Обновление прошивки до последней версии и корректировка настроек контроля обеспечили значительное улучшение производительности.

Применение и рекомендации

  1. Обновление прошивки: Проверка и установка последних версий прошивки для дисков и контроллеров обычно является первым и ключевым шагом. Производители, как правило, выпускают обновления, устраняющие баги и совместимость с новыми версиями ОС.

  2. Конфигурация контроллеров: Убедитесь, что дисковые контроллеры настроены на оптимальное взаимодействие с текущими дисками и операционной системой. Для серверов Dell это может быть достигнуто через iDRAC или BIOS, где можно также провести диагностику системы.

  3. Настройки Hadoop: Важно проверить настройки конфигурации Hadoop на предмет оптимизации ввода-вывода и распределения нагрузки. Параметры, такие как dfs.replication и yarn.scheduler, должны быть тщательно настроены в соответствии с архитектурными особенностями вашего кластера.

  4. Мониторинг и диагностика: Используйте средства мониторинга, такие как iotop или iostat, для анализа нагрузки на диски в реальном времени. Это поможет выявить диски или узлы, которые становятся "узкими местами" в системе.

Заключение

Проблемы производительности дисковых систем часто могут быть решены комплексным подходом, включающим обновление прошивки, настройку оборудования и оптимизацию ПО. Правильная диагностика и регулярное обслуживание оборудования позволяют не только повысить производительность, но и продлить срок службы оборудования. Настоятельно рекомендую привлечь специалистов технической поддержки Dell для получения последних обновлений и консультирования по конфигурации вашей системы.

Оцените материал
Добавить комментарий

Капча загружается...