Восстановление двух неисправных жестких дисков в массиве RAID5 из четырех дисков [закрыто]

Вопрос или проблема

Закрыто. Этот вопрос не по теме. В настоящее время ответы на него не принимаются.

Вопросы должны демонстрировать разумные практики управления информационными технологиями. Вопросы, касающиеся неподдерживаемого оборудования или программных платформ, либо не обслуживаемых сред, могут быть неподходящими для Server Fault.

Закрыто 19 часов назад.

Улучшить этот вопрос

Мне нужно восстановить файл виртуальной машины объёмом 160 ГБ с HP ProLiant DL380 G7. Четыре диска по 146 ГБ объединены в массив RAID5 с двумя разделами.

Проблема в том, что файл виртуальной машины Windows Server расположен в массиве, и дисковые отсеки 2/3 выходят из строя: отсек 2 ближе всего к выходу из строя, а отсек 3 перегревается, из-за чего сервер автоматически отключается после 50 минут попыток восстановления данных на внешний жёсткий диск.

Как только начинается передача данных на внешний HDD, индикатор системы меняется с зелёного на красный. Я проверил журналы BIOS, и один из дисков перегревается.

Что мне делать?

Начните с устранения проблемы перегрева. Это может быть связано с неисправным вентилятором (определите его и замените на рабочий, так как они, как правило, стандартные), забитыми пылью вентиляционными отверстиями (используйте домашний или промышленный пылесос) или необходимостью переноса всего оборудования в кондиционируемое помещение, где прохладнее. Возможно, это даже комбинация этих факторов.

Как только вы решите проблему перегрева, продолжите эвакуацию данных. Подсказка: не затягивайте, так как если 2 из 4 дисков в вашем RAID5 выйдут из строя, ваша единственная возможность восстановить данные будет через внешний резервный копир.

Ответ или решение

В сложившейся ситуации, связанной с отказом двух жестких дисков в RAID5 массиве, необходимо предпринять ряд мер для успешного восстановления данных. RAID5 представляет собой устойчивую практику защиты данных от сбоев, обеспечивая возможность их восстановления в случае отказа одного из дисков. Тем не менее, как только выходят из строя два диска, целостность массива нарушается, и шансы на восстановление значительно снижаются. Рассмотрим теоретические основы, наглядный пример и практическое применение необходимых действий, чтобы минимизировать потери и восстановить данные.

Теория:
RAID5 распределяет данные и паритетные биты между всеми дисками в массиве. Это обеспечивает отказоустойчивость, но только до отказа одного диска. Когда два диска выходят из строя, вся система становится нерабочей. Основная цель при подобных условиях – предпринять все возможные меры для восстановления работоспособности системы или извлечения данных до момента наступления полного сбоя.

Пример:
Ваш случай с HP ProLiant DL380 G7 демонстрирует критическую проблему, вызванную одновременным выходом из строя двух жестких дисков из четырех. Проблемы с перегревом одного из дисков и потенциальный отказ другого усугубляют ситуацию. Это может вызвать не только потерю данных, но и дальнейшее повреждение оборудования из-за перегрева.

Применение:

Устранение причин перегрева:
- Проверка вентиляторов: Убедитесь, что все вентиляторы исправны и обеспечивают адекватную вентиляцию. Неисправные вентиляторы нужно немедленно заменить.
- Очистка от пыли: Задействуйте промышленный или домашний пылесос, чтобы удалить скопившуюся пыль из вентиляционных отверстий и корпуса сервера.
- Температура окружающей среды: Перенесите сервер в более прохладное помещение с кондиционером, чтобы устранить внешние источники перегрева.
Аварийное копирование данных:
- Снижение нагрузки: Прекратите все ненужные процессы и оставьте только задачи, связанные с сохранением данных.
- Дублирующее копирование: Если возможно, выполните полноценное резервное копирование оставшихся данных на внешний HDD, чтобы иметь последнюю версию перед любыми манипуляциями с дисками.
- Использование профессионального ПО: Рассмотрите возможность применения программного обеспечения для восстановления данных, которое может работать с отказавшими RAID массивами.
Восстановление массива:
- Замена неисправных дисков: Замените неисправные диски на новые, идентичные по модели и объему.
- Восстановление с использованием оборудования: Если у вас есть доступ к профессиональному оборудованию и сервисам для восстановления RAID массивов, задействуйте их. Это может позднее помочь реконструировать RAID и восстановить часть данных при условии использования RAID контроллеров, поддерживающих такие функции.
Долгосрочные меры:
- Регулярное резервное копирование: Убедитесь, что ваши системы регулярно выполняют полное резервное копирование всех критически важных данных.
- Мониторинг состояния систем: Интегрируйте и регулярно обновляйте системы мониторинга состояния оборудования, чтобы заранее выявлять подобные неисправности.
- Обучение персонала: Обеспечьте обучение вашего ИТ-персонала для быстрого и эффективного реагирования на подобные инциденты в будущем.

Подобные комплексные меры позволят не только минимизировать текущие потери, но и предотвратить аналогичные ситуации в будущем, обеспечивая долговременную стабильность и надежность ваших систем.