Вопрос или проблема
сегодня я попал в катастрофу…
У меня есть RAID 6 с 7 жесткими дисками, и вчера один диск вышел из строя. После замены диска и ночной перестройки я узнал, что второй жесткий диск тоже вышел из RAID…
Так что сегодня я начал резервное копирование своих файлов на внешние диски, но затем копирование остановилось, и когда я проверил, почему, увидел в Webmins RAID, что sdg был “вниз”.
Я выключил сервер и проверил оборудование и обнаружил, что задняя панель, к которой подключены жесткие диски, отошла…
После ремонта все диски теперь снова на месте, но мой RAID 6 больше не запускается :-/
dmesg показывает мне:
md: удаляет не свежий sdg из массива!
md: удаляет не свежий sdf из массива!
md: удаляет не свежий sde из массива!
md/raid:md0: недостаточно рабочих устройств (3/7 неисправны)
...
и после многих
md0: ADD_NEW_DISK не поддерживается
Я могу прочитать это:
EXT4-fs (md0): не удается прочитать суперблок
С помощью sudo mdadm --examine
я проверил sdg, sdf и sde, и e и f показывает “State clean
“, где sdg, который был “вниз” перед ремонтом, показывает “Active
“. Таким образом, 6 из 7 устройств показывают “чистый” кроме sdg.
Вот список вывода всех устройств:
Диск sdb
/dev/sdb:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
Состояние : чисто
UUID устройства : 9180f101:1dacdd9e:4adae9c4:fbeb2552
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Сб Мар 26 18:13:45 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : 38019182 - корректно
События : 256508
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 0
Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdc
/dev/sdc:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
Состояние : чисто
UUID устройства : 889c6877:5ee5c647:eebd209c:d9c6abcb
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Сб Мар 26 18:13:45 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : a71ea53d - корректно
События : 256508
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 1
Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdd
/dev/sdd:
Магия MBR : aa55
Раздел[0] : 3907026944 секторов при 2048 (тип fd)
Диск sde
/dev/sde:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
Состояние : чисто
UUID устройства : 34198042:3d4c802b:36727b02:fdf65808
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Сб Мар 26 18:05:00 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : f8fb6b18 - корректно
События : 256494
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 3
Состояние массива : AAAAA.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdf
/dev/sdf:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
Состояние : чисто
UUID устройства : b2e8d640:1f21336f:88d823fe:66ef7be7
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Ср Мар 23 14:46:56 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : 15cd05bb - корректно
События : 238681
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 4
Состояние массива : AAAAAA. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdg
/dev/sdg:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
Состояние : активно
UUID устройства : 2bc06e22:49aa73e2:3cf7eb79:55df1180
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Сб Мар 26 17:57:06 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : 7f0ddb2a - корректно
События : 256372
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 5
Состояние массива : AAAAAA. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdh
/dev/sdh:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
Состояние : чисто
UUID устройства : 7af89a18:52ef08ae:dec5ad7b:75626355
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Сб Мар 26 18:13:45 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : 17d7b107 - корректно
События : 256508
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 4
Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Я попытался запустить RAID с помощью
mdadm --run /dev/md0
и получил:
mdadm: не удалось запустить массив /dev/md0: ошибка ввода/вывода
Но после того, как я его запустил, Webmin показывает:
/dev/md0 активен, СБОЙ, не запущен RAID6 (двойная распределенная четность) 7.27 ТиБ
Это 7.27 из 9ТБ.
Есть идеи, как вернуть мой RAID в рабочий режим без потери данных?
Я читал, что могу добавить устройства обратно в RAID, но не уверен и хотел спросить перед этим.
Буду признателен за любую помощь!
ОБНОВЛЕНИЕ: Я забыл, что одно из устройств – это /dev/sdd1, а не /sdd!
Вот его проверка:
/dev/sdd1:
Магия : a92b4efc
Версия : 1.2
Карта функций : 0x1
Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
Имя : N5550:0 (локально для хоста N5550)
Время создания : Пт Окт 29 14:43:58 2021
Уровень RAID : raid6
Устройства RAID : 7
Доступный размер устройства : 3906767872 (1862.89 ГиБ 2000.27 ГБ)
Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
Смещение данных : 259072 секторов
Смещение суперблока : 8 секторов
Неиспользуемое пространство : до=258992 секторов, после=5120 секторов
Состояние : чисто
UUID устройства : d8df004e:44ee4060:ba4d2c22:e7e6bdcb
Внутреннее изображение: 8 секторов от суперблока
Время обновления : Сб Мар 26 18:13:45 2022
Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
Контрольная сумма : 1c4e98a4 - корректно
События : 256508
Макет : левый-симметричный
Размер блока : 512К
Роль устройства : Активное устройство 2
Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
А вот mdadm -D /dev/md0
:
/dev/md0:
Версия : 1.2
Уровень RAID : raid0
Всего устройств : 7
Сохранение : Суперблок устойчив
Состояние : неактивно
Рабочие устройства : 7
Имя : N5550:0 (локально для хоста N5550)
UUID : e866cf54:90d5c74e:fe00b6e7:d25c82f4
События : 256494
Номер Майор Minor Устройство RAID
- 8 64 - /dev/sde
- 8 32 - /dev/sdc
- 8 112 - /dev/sdh
- 8 80 - /dev/sdf
- 8 16 - /dev/sdb
- 8 49 - /dev/sdd1
- 8 96 - /dev/sdg
Похоже, что несколько дисков были исключены из вашего массива? Если у какого-либо из этих дисков были ошибки чтения (проверьте smartctl -a
на наличие перераспределенных/ожидающих/неисправимых секторов и т.п.), вам следует ddrescue
их на новые диски перед попыткой любого другого восстановления данных.
Это RAID-6 из 7 дисков, поэтому вам нужно как минимум 5 дисков, чтобы запустить массив. В настоящее время у вас есть только 3 (sdb, sdc, sdh), поэтому он не работает…
Если вы проверите Время обновления
и События
для каждого диска, вы увидите, что 1 отсутствует полностью (не включен в ваш вывод вообще), 1 очень устарел (sdf), 2 немного устарели (sdg, sde), и только 3 диска актуальны.
/dev/sdf: Время обновления : Ср Мар 23 14:46:56 2022 События: 238681
/dev/sdg: Время обновления : Сб Мар 26 17:57:06 2022 События: 256372
/dev/sde: Время обновления : Сб Мар 26 18:05:00 2022 События: 256494
/dev/sdb: Время обновления : Сб Мар 26 18:13:45 2022 События: 256508
/dev/sdc: Время обновления : Сб Мар 26 18:13:45 2022 События: 256508
/dev/sdh: Время обновления : Сб Мар 26 18:13:45 2022 События: 256508
В этой ситуации вы можете попытать удачу с mdadm --assemble --force
(чтобы игнорировать “не-свежий” счетчик Событий), используя только 5 лучших дисков, игнорируя очень устаревшие и отсутствующие диски. В противном случае mdadm –create с двумя missing
дисками также является вариантом.
Таким образом, sdf следует избегать в этой попытке сборки — чем больше устарел диск, тем больше вероятности файловых несоответствий и повреждений данных вы вероятно столкнетесь. Это должно быть только последним прибежищем, если другие диски вообще не имеют данных (ошибки чтения) для некоторых секторов…
Если это возможно, запускайте свои эксперименты с mdadm на копии с записью наложения.
Удачи.
Ответ или решение
Ваша ситуация выглядит сложной, так как проблема с RAID-массивом может привести к значительной потере данных, если не принять должные меры. Давайте тщательно разберем проблему, вникнем в детали и предложим возможные способы решения проблемы.
Теория
RAID 6 – это конфигурация массивов с чередованием данных и двойным распределением паритета. Он обеспечивает отказоустойчивость, позволяя масиву продолжать работу даже при выходе из строя двух жестких дисков. Однако в вашем случае три диска из семи не в строю, что превышает предел отказа. Это может произойти из-за аппаратных неисправностей или проблем с подключением, в данном случае из-за ослабления задней платы.
Когда система сообщает, что она "выбрасывает устаревшие" диски из массива ("kicking non-fresh"), это указывает на то, что эти диски устарели относительно ожидаемого состояния массива. События RAID контролируются через счетчик событий, который увеличивается каждый раз при записи в массив. Если счетчики разошлись, это может означать проблемы с согласованностью данных.
Пример
В вашем случае ситуация следующая:
- Один диск полностью отсутствует в отчете.
- SDF имеет устаревшее время обновления.
- SDG и SDE слегка отстают.
- Только SDB, SDC и SDH демонстрируют актуальные счетчики событий и время обновления.
Эти данные позволяют предположить, что эти три диска (SDB, SDC, SDH) являются наиболее актуальными. Однако RAID 6 требует как минимум пять рабочих дисков для успешной работы с массивом.
Применение
-
Анализ дисков: Проверьте состояние каждого из дисков с помощью утилиты
smartctl
, чтобы убедиться, что на них нет аппаратных ошибок, таких как переадресованные сектора или неустранимые ошибки. -
Восстановление данных: Если вы еще не сделали этого, рассмотрите возможность создания образов дисков с помощью
ddrescue
на случай, если понадобится восстановление данных. Это поможет сохранить текущее состояние дисков, прежде чем предпринимать дальнейшие действия. -
Попытка сборки массива: Воспользуйтесь командой
mdadm --assemble --force
, чтобы принудительно собрать массив из пяти наиболее актуальных дисков. Избегайте использования диска SDF из-за его высокой отсталости. Старайтесь использовать следующие диски: SDB, SDC, SDE, SDG, SDH. Учтите, что хотя ваш массив может собраться, вероятность получения файловой системы с недостающими данными велика. -
Рассмотрите создание массива с отсутствующими дисками: Как крайняя мера, можно попробовать создать новый массив с использованием
mdadm --create
с двумя отсутствующими дисками. Но помните, что это увеличивает риск повреждения данных. -
Режим копирования с наложением: Если возможно, работайте в режиме копирования с наложением, чтобы у вас была возможность вернуться к первоначальному состоянию дисков. Это позволит вам экспериментировать с конфигурацией RAID без риска необратимой потери данных.
Вывод
Ситуация требует осторожного подхода. Проверяйте целостность каждого действия и старайтесь минимизировать риски. Не пренебрегайте консультацией с профессионалами в области восстановления данных, если ваши собственные попытки не приводят к успеху. Надеюсь, эти действия помогут вам восстановить работоспособность вашего RAID и вернуть доступ к данным.
Помните, наиболее критичной задачей на данный момент является предотвращение дальнейшей деградации данных, что может потребовать детальной диагностики и иногда даже замены оборудования. Успехов!