Оптимальная настройка RAID 6+0 для 40 и более дисков по 4 ТБ

Вопрос или проблема

Я настраиваю JBOD, содержащий 44 жестких диска SAS объемом 4 ТБ и скоростью 7200 об/мин. Я выбрал RAID 60, так как предпочитаю защиту от отказа дисков, чем улучшения производительности, предлагаемые RAID 10. Моя проблема заключается в том, как выбрать оптимальное количество дисков на спан, чтобы обеспечить разумное время перестройки. Например, если я оставлю 4 горячих резервных диска, это приводит к 40 дискам для следующих возможных настроек RAID:

  • 2 спана по 20 дисков, ~144 ТБ полезного объема.
  • 4 спана по 10 дисков, ~128 ТБ полезного объема.
  • 5 спанов по 8 дисков, ~120 ТБ полезного объема.
  • 8 спанов по 5 дисков, ~96 ТБ полезного объема.

Я склоняюсь к 4 спанам по 10 дисков, так как это, похоже, обеспечивает наилучший баланс между отказоустойчивостью (допускается 2 отказа из 10 дисков на спан) и полезным объемом (80%, уменьшенный с 90% для 2 спанов по 20 дисков).

Однако, какое время перестройки я могу ожидать для одного спана из 10 дисков? Поиск в интернете показывает, что даже спан из 10 дисков может быть нецелесообразным, так как перестройка может занять слишком много времени, что увеличивает риск дополнительного отказа дисков во время перестройки. Тем не менее, многие ресурсы в интернете основаны на меньшем количестве дисков или дисках с более низкой емкостью.

Есть ли у вас мысли о том, какая настройка является оптимальной для такого относительно большого количества дисков?

ПРИМЕЧАНИЕ: Существует политика резервного копирования для около 10 ТБ данных, но нецелесообразно делать резервные копии всех данных. Поэтому я склоняюсь к RAID 60, а не RAID 10. Я понимаю, что это не является заменой резервного копирования, но лучшая восстановимость после отказа диска действительно делает систему более надежной, предоставляя возможность восстановить данные и затем перенести их на другое хранилище в случае множественных отказов дисков.

ИЗМЕНЕНИЕ: Технические характеристики:

  • Диски: Seagate 4TB SAS 3.5″ HDD 7200 RPM, корпоративного класса.
  • Контроллер: контроллер ServerRAID M5016, в том числе RAID6, встроенный чипсет LSI2208. См.: https://www.broadcom.com/products/storage/raid-on-chip/sas-2208.
  • Корпус: Supermicro 4U хранилище JBOD 45×3.5 с 2x1400W резервными блоками питания.
  • ОС: CentOS Linux release 7.1.1503 (Core).

Спасибо за помощь.

С современными аппаратными контроллерами RAID от Avago (LSI) или Microsemi (Adaptec) массивы RAID на 20+2 диска вполне приемлемы. Время перестройки разумное (менее 24 часов). Текущие диски имеют очень низкий уровень отказов, в любом случае. Я определенно использовал бы 2 спана.

С дисками объемом 4 ТБ и скоростью 7.2k я рекомендую сделать подмассивы как можно меньшими – на самом деле, 5 дисков вообще не оправдывают использование RAID 6.

Мое мнение таково: используйте RAID 10, где вы можете ожидать, что перестройка завершится в течение 12 часов, тогда как массив RAID 6 из 5 дисков объемом 20 ТБ, скорее всего, не сможет этого достичь.

Убедитесь, что вы активировали ежемесячную проверку данных/обслуживание/как это здесь называется, чтобы обнаружить ошибки чтения до того, как они успеют остановить перестройку. Чаще всего, когда перестройка терпит неудачу, причина заключается не в полностью вышедшем из строя диске, а скорее в сравнительно старой, но не обнаруженной ошибке чтения, которую можно было бы исправить с помощью регулярной проверки.

На основе отличных комментариев, которые я получил, я попытался собрать RAID60, состоящий из 5 спанов по 8 дисков каждый по следующим причинам:

  1. На основе недавней перестройки, которая включала 2 спана по 20 дисков, я оцениваю время перестройки для конфигурации 8+2 как разумное.

  2. Полезная емкость уменьшена незначительно по сравнению со спанами с большим количеством дисков (например, 10 или 20 дисков на спан). Хотя потеря в 20 ТБ кажется значительной, меньший размер спана означает, что перестройка будет достижима — это приемлемый обмен.

Я обновлю этот ответ в любой дополнительной информации, которую соберу.

Изменение: Удален RAID 5 как жизнеспособный вариант.

На таком большом массиве я бы действительно использовал RAID 10 или эквивалентную зеркальную настройку ZFS. Вы могли бы настроить RAID 10 из 42 дисков + 2 глобальных горячих резерва (для ~82 ТБ полезного пространства), и это обеспечит отличную защиту от отказов дисков с очень быстрым временем перестройки.

Если вы действительно хотите использовать RAID 6, я склоняюсь к 5 спанам по 10 дисков.

Если пропускная способность ваших шины(ей) достаточно высока, время перестройки для массива RAID6 из 20 дисков не должно сильно отличаться от времени перестройки для массива RAID6 из 8 или 10 дисков. В основном, осуществляется один непрерывный чтение с каждого не вышедшего из строя диска и в то же время один непрерывный запись на диск, который восстанавливается.

Если у вас ограниченные пропускные способности и время перестройки имеет значение, убедитесь, что вы распределили диски каждого из подмассивов RAID6 между всеми доступными контроллерами. Допустим, у вас есть 4 контроллера с 11 дисками каждый (и, вероятно, 12-й слот на каждом контроллере, где некоторые из них занимают быстрый системный SSD), тогда настройка с пятью RAID6 из 8 дисков и четырьмя горячими резервами кажется оптимальной: каждый контроллер будет иметь два диска из каждого RAID6 на 8 дисков и один горячий резерв. В идеале, любой сценарий или действие администратора, которые вы используете для восстановления данных в случае отказа диска, должны предпочитать использовать горячий резерв на том же контроллере, что и вышедший из строя диск, но прибегнуть к любому другому доступному горячему резерву, если горячий резерв на данном контроллере уже используется.

Ответ или решение

Создание оптимального RAID 6+0 для хранения 44 жестких дисков по 4 ТБ требует тщательного планирования, учитывая баланс между надежностью, скоростью восстановления и эффективностью использования пространства. В вашем случае вы выбрали RAID 60, что является разумным решением для обеспечения избыточности.

Подходящие конфигурации RAID

Исходя из ваших расчетов, у вас есть несколько вариантов для организации дисков:

  1. 2 группы по 20 дисков:

    • Общая доступная емкость: ~144 ТБ
    • Недостаток: при выходе из строя одного диска в каждой группе надежность снижена, так как можно потерять 20% данных.
  2. 4 группы по 10 дисков:

    • Общая доступная емкость: ~128 ТБ
    • Недостаток: серьезное время восстановления может быть привязано к большому числу дисков. Рекомендуется, если у вас высокая скорость передачи данных и возможность параллельной работы контроллеров.
  3. 5 групп по 8 дисков:

    • Общая доступная емкость: ~120 ТБ
    • Это будет наилучший компромисс между емкостью и временем восстановления.
  4. 8 групп по 5 дисков:

    • Общая доступная емкость: ~96 ТБ
    • Это уменьшает риск потери данных, но слишком маленькие группы могут не оправдать необходимость использования RAID 6 из-за его системных накладных расходов.

Рекомендации

С учетом особенностей вашей системы и в осуждении времени восстановления, я более склонен к использованию конфигурации: 5 групп по 8 дисков.

Причины выбора:

  1. Надежность: в каждой группе можно потерять до 2 дисков, что обеспечивает более высокий уровень защиты по сравнению с конфигурацией на 10 дисков.
  2. Время восстановления: меньший объем данных в каждой группе означает, что восстановление будет происходить быстрее. Это критически важно, так как длительные операции восстановления увеличивают риск возникновения новых сбоев в системе.
  3. Эффективное использование пространства: хотя доступная емкость немного меньше, чем в группировке на 10 дисков, она всё же достаточно велика для большинства применений.

Время восстановления

Как правило, время восстановления RAID 6 зависит от скорости чтения и записи контроллера, времени, необходимого для считывания данных с оставшихся дисков, и скорости записи на новый заменяющий диск. Ваша система с 7200 RPM дисками и контроллером ServerRAID M5016 с LSI2208, как правило, должна обеспечивать время восстановления, которое вписывается в разумные рамки (обычно до 24 часов для массива из 8 дисков).

Дополнительные меры

  1. Регулярное сканирование данных: Включите процедуры сканирования данных, чтобы заранее обнаруживать ошибки чтения или повреждения файлов, прежде чем они помешают операциям восстановления.
  2. Размещение горячих резервов: Найдите способ распределить горячие резервные диски по всем контроллерам, чтобы обеспечить максимально быстрое восстановление.
  3. Наблюдение за состоянием дисков: Убедитесь, что у вас настроены мониторинг и оповещения о состоянии дисков, чтобы незамедлительно реагировать на потенциальные сбои.

Заключение

Ваше целенаправленное использование RAID 60 с 5 группами по 8 дисков представляет собой оптимальное решение, учитывающее как необходимость защиты данных, так и оперативность восстановления. Это даст вам возможность безопасно управлять вашими данными, минимизируя риск потери информации и время регистрации.

Оцените материал
Добавить комментарий

Капча загружается...