Вопрос или проблема
Кратко: я потерял два диска из RAID5 и нуждаюсь в помощи/советах по восстановлению хотя бы некоторой части данных.
Я ищу помощи и советов по поводу того, как спасти данные с нерабочего RAID5 (только данные, без системы на этом RAID) на Dell PowerEdge R740XD (PERC H740P RAID Controller mini card с S140).
Два из жестких дисков вышли из строя, и я хочу восстановить некоторые данные, на которые у меня нет резервных копий.
Ситуация:
Некоторое время назад вышел из строя один диск, и я это не заметил. Могу поклясться, что индикатор HDD не показывал ничего. Однако, теперь вышел из строя второй диск, и сервер подключил виртуальный диск в режиме “только чтение”, что привлекло мое внимание, потому что я не могу больше записывать данные.
Из-за недопонимания кодов индикатора HDD (я подумал, что это предсказуемый сбой), я заменил один из неисправных дисков на новый – и так как перестройка не началась, вернул оригинальный диск обратно, который затем загорелся зеленым индикатором HDD. Также в idrac он отображается как “работающий нормально”. Однако, когда я получаю доступ к файлам (копирование/rsync), я все равно получаю множество ошибок. Доступные файлы, как я думаю, принадлежат другому RAID (в середине корпуса), который я сгруппировал с lvm в тот же том.
Вопросы по перестройке:
- Может ли быть, что я был удачлив, и диск “восстановился” из своего сбоя благодаря моим действиям?
- Или я просто полностью уничтожил RAID повторной инициализацией/форматированием неисправного диска, когда вставил его обратно в сервер?
- Имеет ли смысл также извлечь/охладить/вставить другой неисправный диск?
- Или сейчас, когда только один диск “вышел из строя”, возможно ли восстановление, заменив неисправный диск новым?
- Следует делать такую замену в режиме горячей замены или лучше после отключения системы?
- Или сейчас, когда только один диск “вышел из строя”, возможно ли восстановление, заменив неисправный диск новым?
- Могу ли я выключить сервер в этом состоянии (для анализа или копирования отдельных дисков)?
- или он никогда не перезагрузится (нет системы на поврежденном RAID)?
- или я потеряю какие-либо важные метаданные поврежденного RAID во время перезапуска?
Найдите в Google местные “службы по восстановлению жестких дисков” и предоставьте им ваши диски. ВСЕ, включая неисправные. В качестве альтернативы, вы можете использовать какие-либо программы для восстановления файлов по частицам. Но… Это очень болезненный путь.
Ответ или решение
Конечно, работа с отказавшими дисками в RAID5-системе – это непростая задача, требующая особого внимания и осторожности. Погружаясь в детали вашего случая, видно, что вы столкнулись с двойной утерей дисков в массиве RAID5, что, к сожалению, оставляет вас в сложной ситуации. Давайте разберем ключевые моменты и процедуры, которые могут помочь в вашем случае.
Теория: Проблемы и особенности RAID5
RAID5 представляет собой популярную конфигурацию массивов, объединяющую производительность и отказоустойчивость. Он использует распределение данных и их избыточность через паритет для защиты от сбоя одного диска. Проблема, с которой сталкиваются многие пользователи RAID5, заключается в том, что при выходе из строя второго диска вся структура массива может быть серьезно повреждена, и восстановление данных становится крайне сложным.
Пример: Ваша ситуация
Вы описываете, как один диск вышел из строя, но это не было замечено своевременно, а затем последовал отказ второго диска, вследствие чего сервер стал монтировать виртуальный диск в режиме "только для чтения". Ваши дальнейшие действия, связанные с заменой диска и его возвращением, могли усложнить ситуацию. Теперь стоит рассмотреть несколько вопросов:
-
Возможность восстановления первоначального диска: Вполне возможно, что диск с зеленым светодиодом и обозначенный как "работающий нормально" в iDRAC, изначально не был полностью выйден из строя. Некорректная интерпретация статуса привела к замене. Возможно, без детальной диагностики восстановление работоспособности этого диска могло быть неправильным толкованием показателей.
-
Вопрос о замене второго диска: Замена второго, все еще нерабочего диска, требует осторожности. Необходимо выяснить, действительно ли второй диск полностью вышел из строя, или его отказ был частичным. Инструменты диагностики предлагают возможность более корректной оценки. В данном случае лучшим советом будет обратиться за профессиональной помощью до попытки дальнейшей замены.
-
Остановку сервера и последствия: Вы задаетесь вопросом о возможности безопасного отключения сервера. Следует помнить, что риск потери данных или нарушения метаданных массива нарастает при каждом переходе сервера в неактивное состояние до разрешения проблемы. Все действия по выключению должны сопровождаться предварительным анализом возможных рисков и альтернатами стратегиями восстановления.
Приложение: Рекомендации
-
Профессиональные услуги восстановления: Наилучшим решением будет обращение в специализированные сервисы восстановления данных. Их квалификация и доступ к специализированным инструментам позволят более точно диагностировать и, возможно, вернуть утерянные данные. Передавая им все связанные диски, вы увеличиваете шансы на успешное восстановление массива.
-
Используйте программное обеспечение для восстановления: Хотя это может быть долгим и затратным процессом, использование программного обеспечения, ориентированного на восстановление по блокам, может дать результат. Однако, без соответствующего опыта эти инструменты могут не дать желаемых результатов или усугубить ситуацию.
-
Грамотное управление RAID контроллером: Убедитесь, что ваш RAID контроллер правильно настроен и вы понимаете коды, отображаемые на HDD LED. Это предотвратит ошибочные действия в будущем. Поддержите конфигурацию вашего сервера всегда актуальной через регулярный мониторинг системных логов.
-
Регулярное резервное копирование: Этот случай вновь подчеркивает важность резервного копирования данных. Даже в таких отказоустойчивых системах как RAID, отсутствие актуальных резервных копий создает огромный риск потери данных.
В целом, в сложных ситуациях с RAID принято не экспериментировать, а обращаться к профессионалам. Надеюсь, приведенные рекомендации помогут вам в восстановлении данных и минимизации дальнейших рисков при работе с RAID массивами.