Smart Array P420i, логический диск не работает, лучший способ повторно включить.

Вопрос или проблема

У меня есть сервер HP Proliant ML380p Gen8 с контроллером P420i, где один из логических дисков внезапно вышел из строя.

Скриншот Smart Storage Administrator

Из того, что я видел в Smart Storage Administrator, ни один из физических дисков в массиве не имеет проблем.

У меня есть возможность повторно включить неработающий логический диск (см. скриншот), но я понял из различных сообщений на форумах, что если это не сработает, я потеряю все данные на дисках. Поэтому я решил сначала создать копии всех четырех дисков.

Я использовал ddrescue и USB SATA-док для создания этих копий, и смог получить полную копию дисков B и D (см. скриншот). Однако как для диска A, так и для диска C удалось скопировать около 74% диска, после чего ddrescue не смог считывать больше данных.

В массиве RAID 1+0 диски должны иметь такую раскладку:

Схема RAID 1+0

Теперь у меня следующие вопросы:

  • Если диски A, B, C, D настроены в порядке, показанном на скриншоте Smart Storage Administrator выше, означает ли это, что (A + B) является парой RAID 1, а (C + D) также является парой RAID 1, и имея полные копии дисков B и D, у меня есть копия всех данных?

Если вышеуказанное верно, то мне нужен совет, как попытаться ‘повторно включить логический диск’:

  • Должен ли я вернуть все 4 диска обратно в сервер, включая те, которые я не смог полностью прочитать с помощью ddrescue, и затем попытаться повторно включить ИЛИ
  • Должен ли я вернуть в сервер только диски B и D (те, которые я смог полностью прочитать с помощью ddrescue), и затем попытаться повторно включить?

Спасибо за ответы на эти вопросы, или любые другие советы или рекомендации

Во-первых, ваш сервер более чем на два года вышел за пределы срока поддержки — что не идеально. Также я бы даже не пытался реализовать идею ‘создания копий всех четырех дисков’ — это крайне маловероятно, что это вам поможет.

Если у вас все еще есть доступ к вашим данным, просто сделайте их резервное копирование, если вы этого еще не сделали — уничтожьте и воссоздайте логический диск и восстановите ваши данные. Я знаю, что это требует много работы и простоя, но это единственный способ точно знать, что вы получите рабочую систему.

Или… получите более новый сервер с поддержкой и восстановите данные на него — решите две проблемы!

Просто повторно включите логический диск.
Я бы спросил, что послужило причиной, но это, вероятно, не важно.

Я смог скопировать только около 74% диска, прежде чем ddrescue не смог считывать больше данных.

Похоже, вы попались на миф RAID защищает мои данные в любом случае. RAID настолько надежен, насколько вы его проверяте и мониторите — битовая гниль может привести к множественным сбоям чтения, если не проводить регулярную проверку; множественные сбои чтения приводят к полному выходу из строя вашего массива. Также, RAID не заменяет актуальную, хорошую и проверенную резервную копию.

  1. Тщательно проверьте диски (или замените их сразу).
  2. Замените все неисправные/ненадежные диски.
  3. Повторно включите массив, отформатировав диски.
  4. Восстановите данные из резервной копии.
  5. Убедитесь, что вы включили еженедельную/регулярную проверку данных, также называемую патрулем носителя, чтобы избежать будущих ошибок при чтении.

.

Ответ или решение

Конечно, решение проблем, связанных с аппаратным RAID, может стать серьезной задачей, особенно если система стареет и уходит из стадии поддержки. Текущий случай с контроллером Smart Array P420i, установленным на сервере HP Proliant ML380p Gen8, демонстрирует это очень наглядно.

Теория

Начнем с основ теории RAID 1+0 (или RAID 10). Данная конфигурация обеспечивает совмещение надежности и производительности, комбинируя зеркалирование (RAID 1) и разделение данных по полосам (RAID 0). В контексте данного случая, массив RAID 1+0 предполагает, что каждый диск зеркалируется с другим: если у вас четыре диска A, B, C и D, их можно условно разделить на две пары зеркал, например (A + B) и (C + D). Такой подход позволяет продолжать работу даже в случае выхода из строя одного диска в каждой из зеркальных пар.

Пример

Сейчас перейдем к конкретной ситуации. Вы отметили, что смогли создать полные резервные копии дисков B и D, однако при копировании дисков A и C процесс застопорился на 74%. Если предположить, что конфигурация массива такова, что A и B образуют одну зеркальную пару, а C и D — другую, то, имея полные копии B и D, вы теоретически располагаете практически полными копиями данных массивов.

Однако, стоит учитывать, что RAID не является заменой для надежной и регулярной резервной копии данных. Поскольку в вашем случае имеются неполные копии дисков A и C, потенциальные повреждения на обоих этих дисках теоретически могут угрожать целостности данных. Это свидетельствует о том, что полагаться исключительно на RAID опасно.

Применение

Шаги по восстановлению:

  1. Анализ и диагностика: Проведите тщательное тестирование всех четырех дисков на наличие физических проблем. Если обнаружены любые отклонения, замените такие диски на исправные.

  2. Сборка массива: Начните с полного возврата всех четырех дисков A, B, C и D в сервер для проверки поведения системы. Попробуйте использовать инструмент HP Smart Storage Administrator для "повторного включения" поврежденного логического диска.

  3. Оценка результата: Если логический диск восстановится и данные станут доступны, незамедлительно создайте полноценную резервную копию всех критически важных данных.

  4. План "Б": В случае, если "повторное включение" не будет успешным и данные останутся недоступными, переведите фокус на создание нового логического тома, используя исправные диски B и D. В этом случае, первоначальные данные, отсутствующие на A и C, могут быть восстановлены из решений резервного копирования, если таковые имеются.

Предотвращение будущих проблем:

  • Регулярные проверки: Настройте сканирование данных или media patrol на вашем массиве RAID. Это позволит заранее выявить проблемы, связанные с "битовым гниением" и шестикратной деградацией.

  • Текущая поддержка и обновления:
    Поскольку ваш сервер вышел из официальной поддержки более чем на два года, рассмотрите вопрос о его модернизации или замене. Новое оборудование может предложить как лучшую производительность, так и улучшенные возможности поддержки с точки зрения прошивок и обновлений.

Заключение

Независимо от маршрута действий, первостепенная цель должна быть ориентирована на защиту данных и обеспечение целостности системы. В данной ситуации на практике честный подход — это восстановление, модернизация аппаратного обеспечения и переосмысление стратегии резервного копирования. Это обеспечит не только безопасность данных сейчас, но и подготовит вашу инфраструктуру к будущему.

Оцените материал
Добавить комментарий

Капча загружается...