Отказ двух дисков на RAID5

Вопрос или проблема

Кратко: я потерял два диска из RAID5 и нуждаюсь в помощи/советах по восстановлению хотя бы некоторой части данных.

Я ищу помощи и советов по поводу того, как спасти данные с нерабочего RAID5 (только данные, без системы на этом RAID) на Dell PowerEdge R740XD (PERC H740P RAID Controller mini card с S140).
Два из жестких дисков вышли из строя, и я хочу восстановить некоторые данные, на которые у меня нет резервных копий.

Ситуация:
Некоторое время назад вышел из строя один диск, и я это не заметил. Могу поклясться, что индикатор HDD не показывал ничего. Однако, теперь вышел из строя второй диск, и сервер подключил виртуальный диск в режиме “только чтение”, что привлекло мое внимание, потому что я не могу больше записывать данные.
Из-за недопонимания кодов индикатора HDD (я подумал, что это предсказуемый сбой), я заменил один из неисправных дисков на новый – и так как перестройка не началась, вернул оригинальный диск обратно, который затем загорелся зеленым индикатором HDD. Также в idrac он отображается как “работающий нормально”. Однако, когда я получаю доступ к файлам (копирование/rsync), я все равно получаю множество ошибок. Доступные файлы, как я думаю, принадлежат другому RAID (в середине корпуса), который я сгруппировал с lvm в тот же том.

Вопросы по перестройке:

  • Может ли быть, что я был удачлив, и диск “восстановился” из своего сбоя благодаря моим действиям?
    • Или я просто полностью уничтожил RAID повторной инициализацией/форматированием неисправного диска, когда вставил его обратно в сервер?
  • Имеет ли смысл также извлечь/охладить/вставить другой неисправный диск?
    • Или сейчас, когда только один диск “вышел из строя”, возможно ли восстановление, заменив неисправный диск новым?
      • Следует делать такую замену в режиме горячей замены или лучше после отключения системы?
  • Могу ли я выключить сервер в этом состоянии (для анализа или копирования отдельных дисков)?
    • или он никогда не перезагрузится (нет системы на поврежденном RAID)?
    • или я потеряю какие-либо важные метаданные поврежденного RAID во время перезапуска?

Найдите в Google местные “службы по восстановлению жестких дисков” и предоставьте им ваши диски. ВСЕ, включая неисправные. В качестве альтернативы, вы можете использовать какие-либо программы для восстановления файлов по частицам. Но… Это очень болезненный путь.

Ответ или решение

Конечно, работа с отказавшими дисками в RAID5-системе – это непростая задача, требующая особого внимания и осторожности. Погружаясь в детали вашего случая, видно, что вы столкнулись с двойной утерей дисков в массиве RAID5, что, к сожалению, оставляет вас в сложной ситуации. Давайте разберем ключевые моменты и процедуры, которые могут помочь в вашем случае.

Теория: Проблемы и особенности RAID5

RAID5 представляет собой популярную конфигурацию массивов, объединяющую производительность и отказоустойчивость. Он использует распределение данных и их избыточность через паритет для защиты от сбоя одного диска. Проблема, с которой сталкиваются многие пользователи RAID5, заключается в том, что при выходе из строя второго диска вся структура массива может быть серьезно повреждена, и восстановление данных становится крайне сложным.

Пример: Ваша ситуация

Вы описываете, как один диск вышел из строя, но это не было замечено своевременно, а затем последовал отказ второго диска, вследствие чего сервер стал монтировать виртуальный диск в режиме "только для чтения". Ваши дальнейшие действия, связанные с заменой диска и его возвращением, могли усложнить ситуацию. Теперь стоит рассмотреть несколько вопросов:

  1. Возможность восстановления первоначального диска: Вполне возможно, что диск с зеленым светодиодом и обозначенный как "работающий нормально" в iDRAC, изначально не был полностью выйден из строя. Некорректная интерпретация статуса привела к замене. Возможно, без детальной диагностики восстановление работоспособности этого диска могло быть неправильным толкованием показателей.

  2. Вопрос о замене второго диска: Замена второго, все еще нерабочего диска, требует осторожности. Необходимо выяснить, действительно ли второй диск полностью вышел из строя, или его отказ был частичным. Инструменты диагностики предлагают возможность более корректной оценки. В данном случае лучшим советом будет обратиться за профессиональной помощью до попытки дальнейшей замены.

  3. Остановку сервера и последствия: Вы задаетесь вопросом о возможности безопасного отключения сервера. Следует помнить, что риск потери данных или нарушения метаданных массива нарастает при каждом переходе сервера в неактивное состояние до разрешения проблемы. Все действия по выключению должны сопровождаться предварительным анализом возможных рисков и альтернатами стратегиями восстановления.

Приложение: Рекомендации

  1. Профессиональные услуги восстановления: Наилучшим решением будет обращение в специализированные сервисы восстановления данных. Их квалификация и доступ к специализированным инструментам позволят более точно диагностировать и, возможно, вернуть утерянные данные. Передавая им все связанные диски, вы увеличиваете шансы на успешное восстановление массива.

  2. Используйте программное обеспечение для восстановления: Хотя это может быть долгим и затратным процессом, использование программного обеспечения, ориентированного на восстановление по блокам, может дать результат. Однако, без соответствующего опыта эти инструменты могут не дать желаемых результатов или усугубить ситуацию.

  3. Грамотное управление RAID контроллером: Убедитесь, что ваш RAID контроллер правильно настроен и вы понимаете коды, отображаемые на HDD LED. Это предотвратит ошибочные действия в будущем. Поддержите конфигурацию вашего сервера всегда актуальной через регулярный мониторинг системных логов.

  4. Регулярное резервное копирование: Этот случай вновь подчеркивает важность резервного копирования данных. Даже в таких отказоустойчивых системах как RAID, отсутствие актуальных резервных копий создает огромный риск потери данных.

В целом, в сложных ситуациях с RAID принято не экспериментировать, а обращаться к профессионалам. Надеюсь, приведенные рекомендации помогут вам в восстановлении данных и минимизации дальнейших рисков при работе с RAID массивами.

Оцените материал
Добавить комментарий

Капча загружается...