md: удаление неактуального sdg из массива! md/raid:md0: и недостаточно рабочих устройств (3/7 вышли из строя)

Вопрос или проблема

сегодня я попал в катастрофу…

У меня есть RAID 6 с 7 жесткими дисками, и вчера один диск вышел из строя. После замены диска и ночной перестройки я узнал, что второй жесткий диск тоже вышел из RAID…
Так что сегодня я начал резервное копирование своих файлов на внешние диски, но затем копирование остановилось, и когда я проверил, почему, увидел в Webmins RAID, что sdg был “вниз”.
Я выключил сервер и проверил оборудование и обнаружил, что задняя панель, к которой подключены жесткие диски, отошла…

После ремонта все диски теперь снова на месте, но мой RAID 6 больше не запускается :-/

dmesg показывает мне:
md: удаляет не свежий sdg из массива!
md: удаляет не свежий sdf из массива!
md: удаляет не свежий sde из массива!
md/raid:md0: недостаточно рабочих устройств (3/7 неисправны)
...
и после многих
md0: ADD_NEW_DISK не поддерживается
Я могу прочитать это:
EXT4-fs (md0): не удается прочитать суперблок

С помощью sudo mdadm --examine я проверил sdg, sdf и sde, и e и f показывает “State clean“, где sdg, который был “вниз” перед ремонтом, показывает “Active“. Таким образом, 6 из 7 устройств показывают “чистый” кроме sdg.
Вот список вывода всех устройств:

Диск sdb
/dev/sdb:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
          Состояние : чисто
    UUID устройства : 9180f101:1dacdd9e:4adae9c4:fbeb2552

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Сб Мар 26 18:13:45 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : 38019182 - корректно
         События : 256508

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 0
   Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdc
/dev/sdc:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
          Состояние : чисто
    UUID устройства : 889c6877:5ee5c647:eebd209c:d9c6abcb

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Сб Мар 26 18:13:45 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : a71ea53d - корректно
         События : 256508

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 1
   Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdd
/dev/sdd:
   Магия MBR : aa55
Раздел[0] :   3907026944 секторов при         2048 (тип fd)
Диск sde
/dev/sde:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
          Состояние : чисто
    UUID устройства : 34198042:3d4c802b:36727b02:fdf65808

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Сб Мар 26 18:05:00 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : f8fb6b18 - корректно
         События : 256494

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 3
   Состояние массива : AAAAA.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdf
/dev/sdf:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
          Состояние : чисто
    UUID устройства : b2e8d640:1f21336f:88d823fe:66ef7be7

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Ср Мар 23 14:46:56 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : 15cd05bb - корректно
         События : 238681

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 4
   Состояние массива : AAAAAA. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdg
/dev/sdg:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
          Состояние : активно
    UUID устройства : 2bc06e22:49aa73e2:3cf7eb79:55df1180

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Сб Мар 26 17:57:06 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : 7f0ddb2a - корректно
         События : 256372

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 5
   Состояние массива : AAAAAA. ('A' == активный, '.' == отсутствует, 'R' == заменяется)
Диск sdh
/dev/sdh:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906770096 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=7344 секторов
          Состояние : чисто
    UUID устройства : 7af89a18:52ef08ae:dec5ad7b:75626355

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Сб Мар 26 18:13:45 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : 17d7b107 - корректно
         События : 256508

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 4
   Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)

Я попытался запустить RAID с помощью

mdadm --run /dev/md0

и получил:

mdadm: не удалось запустить массив /dev/md0: ошибка ввода/вывода

Но после того, как я его запустил, Webmin показывает:

/dev/md0    активен, СБОЙ, не запущен     RAID6 (двойная распределенная четность)     7.27 ТиБ

Это 7.27 из 9ТБ.

Есть идеи, как вернуть мой RAID в рабочий режим без потери данных?

Я читал, что могу добавить устройства обратно в RAID, но не уверен и хотел спросить перед этим.

Буду признателен за любую помощь!

ОБНОВЛЕНИЕ: Я забыл, что одно из устройств – это /dev/sdd1, а не /sdd!
Вот его проверка:

/dev/sdd1:
          Магия : a92b4efc
        Версия : 1.2
    Карта функций : 0x1
     Идентификатор массива : e866cf54:90d5c74e:fe00b6e7:d25c82f4
           Имя : N5550:0  (локально для хоста N5550)
  Время создания : Пт Окт 29 14:43:58 2021
     Уровень RAID : raid6
   Устройства RAID : 7

 Доступный размер устройства : 3906767872 (1862.89 ГиБ 2000.27 ГБ)
     Размер массива : 9766906880 (9314.45 ГиБ 10001.31 ГБ)
  Используемый размер устройства : 3906762752 (1862.89 ГиБ 2000.26 ГБ)
    Смещение данных : 259072 секторов
   Смещение суперблока : 8 секторов
   Неиспользуемое пространство : до=258992 секторов, после=5120 секторов
          Состояние : чисто
    UUID устройства : d8df004e:44ee4060:ba4d2c22:e7e6bdcb

Внутреннее изображение: 8 секторов от суперблока
    Время обновления : Сб Мар 26 18:13:45 2022
  Журнал плохих блоков : 512 записей доступны на смещении 16 секторов
       Контрольная сумма : 1c4e98a4 - корректно
         События : 256508

         Макет : левый-симметричный
     Размер блока : 512К

   Роль устройства : Активное устройство 2
   Состояние массива : AAA.A.. ('A' == активный, '.' == отсутствует, 'R' == заменяется)

А вот mdadm -D /dev/md0:

/dev/md0:
           Версия : 1.2
        Уровень RAID : raid0
     Всего устройств : 7
       Сохранение : Суперблок устойчив

             Состояние : неактивно
   Рабочие устройства : 7

              Имя : N5550:0  (локально для хоста N5550)
              UUID : e866cf54:90d5c74e:fe00b6e7:d25c82f4
            События : 256494

    Номер   Майор   Minor   Устройство RAID

       -       8       64        -        /dev/sde
       -       8       32        -        /dev/sdc
       -       8      112        -        /dev/sdh
       -       8       80        -        /dev/sdf
       -       8       16        -        /dev/sdb
       -       8       49        -        /dev/sdd1
       -       8       96        -        /dev/sdg

Похоже, что несколько дисков были исключены из вашего массива? Если у какого-либо из этих дисков были ошибки чтения (проверьте smartctl -a на наличие перераспределенных/ожидающих/неисправимых секторов и т.п.), вам следует ddrescue их на новые диски перед попыткой любого другого восстановления данных.

Это RAID-6 из 7 дисков, поэтому вам нужно как минимум 5 дисков, чтобы запустить массив. В настоящее время у вас есть только 3 (sdb, sdc, sdh), поэтому он не работает…

Если вы проверите Время обновления и События для каждого диска, вы увидите, что 1 отсутствует полностью (не включен в ваш вывод вообще), 1 очень устарел (sdf), 2 немного устарели (sdg, sde), и только 3 диска актуальны.

/dev/sdf: Время обновления : Ср Мар 23 14:46:56 2022 События: 238681
/dev/sdg: Время обновления : Сб Мар 26 17:57:06 2022 События: 256372
/dev/sde: Время обновления : Сб Мар 26 18:05:00 2022 События: 256494
/dev/sdb: Время обновления : Сб Мар 26 18:13:45 2022 События: 256508
/dev/sdc: Время обновления : Сб Мар 26 18:13:45 2022 События: 256508
/dev/sdh: Время обновления : Сб Мар 26 18:13:45 2022 События: 256508

В этой ситуации вы можете попытать удачу с mdadm --assemble --force (чтобы игнорировать “не-свежий” счетчик Событий), используя только 5 лучших дисков, игнорируя очень устаревшие и отсутствующие диски. В противном случае mdadm –create с двумя missing дисками также является вариантом.

Таким образом, sdf следует избегать в этой попытке сборки — чем больше устарел диск, тем больше вероятности файловых несоответствий и повреждений данных вы вероятно столкнетесь. Это должно быть только последним прибежищем, если другие диски вообще не имеют данных (ошибки чтения) для некоторых секторов…

Если это возможно, запускайте свои эксперименты с mdadm на копии с записью наложения.

Удачи.

Ответ или решение

Ваша ситуация выглядит сложной, так как проблема с RAID-массивом может привести к значительной потере данных, если не принять должные меры. Давайте тщательно разберем проблему, вникнем в детали и предложим возможные способы решения проблемы.

Теория

RAID 6 – это конфигурация массивов с чередованием данных и двойным распределением паритета. Он обеспечивает отказоустойчивость, позволяя масиву продолжать работу даже при выходе из строя двух жестких дисков. Однако в вашем случае три диска из семи не в строю, что превышает предел отказа. Это может произойти из-за аппаратных неисправностей или проблем с подключением, в данном случае из-за ослабления задней платы.

Когда система сообщает, что она "выбрасывает устаревшие" диски из массива ("kicking non-fresh"), это указывает на то, что эти диски устарели относительно ожидаемого состояния массива. События RAID контролируются через счетчик событий, который увеличивается каждый раз при записи в массив. Если счетчики разошлись, это может означать проблемы с согласованностью данных.

Пример

В вашем случае ситуация следующая:

  • Один диск полностью отсутствует в отчете.
  • SDF имеет устаревшее время обновления.
  • SDG и SDE слегка отстают.
  • Только SDB, SDC и SDH демонстрируют актуальные счетчики событий и время обновления.

Эти данные позволяют предположить, что эти три диска (SDB, SDC, SDH) являются наиболее актуальными. Однако RAID 6 требует как минимум пять рабочих дисков для успешной работы с массивом.

Применение

  1. Анализ дисков: Проверьте состояние каждого из дисков с помощью утилиты smartctl, чтобы убедиться, что на них нет аппаратных ошибок, таких как переадресованные сектора или неустранимые ошибки.

  2. Восстановление данных: Если вы еще не сделали этого, рассмотрите возможность создания образов дисков с помощью ddrescue на случай, если понадобится восстановление данных. Это поможет сохранить текущее состояние дисков, прежде чем предпринимать дальнейшие действия.

  3. Попытка сборки массива: Воспользуйтесь командой mdadm --assemble --force, чтобы принудительно собрать массив из пяти наиболее актуальных дисков. Избегайте использования диска SDF из-за его высокой отсталости. Старайтесь использовать следующие диски: SDB, SDC, SDE, SDG, SDH. Учтите, что хотя ваш массив может собраться, вероятность получения файловой системы с недостающими данными велика.

  4. Рассмотрите создание массива с отсутствующими дисками: Как крайняя мера, можно попробовать создать новый массив с использованием mdadm --create с двумя отсутствующими дисками. Но помните, что это увеличивает риск повреждения данных.

  5. Режим копирования с наложением: Если возможно, работайте в режиме копирования с наложением, чтобы у вас была возможность вернуться к первоначальному состоянию дисков. Это позволит вам экспериментировать с конфигурацией RAID без риска необратимой потери данных.

Вывод

Ситуация требует осторожного подхода. Проверяйте целостность каждого действия и старайтесь минимизировать риски. Не пренебрегайте консультацией с профессионалами в области восстановления данных, если ваши собственные попытки не приводят к успеху. Надеюсь, эти действия помогут вам восстановить работоспособность вашего RAID и вернуть доступ к данным.

Помните, наиболее критичной задачей на данный момент является предотвращение дальнейшей деградации данных, что может потребовать детальной диагностики и иногда даже замены оборудования. Успехов!

Оцените материал
Добавить комментарий

Капча загружается...