Вопрос или проблема
Я обновил системную плату, процессор и оперативную память нашего основного сервера. Сервер выполняет еженедельные сканирования и дважды в неделю резервные копии на резервный сервер. Я создал новый снимок и отправил его на резервный сервер перед обновлением. Протестировал новую оперативную память с помощью memtest, и она прошла проверку.
Сервер выполнил свое еженедельное сканирование прошлой ночью на новом оборудовании. Он вернул:
Поврежден один файл: Mission Impossible Fallout (если кому-то интересно, у меня есть диск, и я сам его скопировал). Файл на смонтированном массиве поврежден, и каждая его копия из еженедельных снимков за два месяца также повреждена.
Удалось без проблем восстановить его с резервного бокса, но факт того, что он рекурсивно умирает на всех снимках после замены оборудования, мне не кажется случайностью.
Это не похоже на неисправный кабель, так как на каждом диске была ошибка контрольной суммы для этого одного файла.
Мой вопрос в том, что, черт подери, по вашему мнению, здесь произошло?
Я бы подумал, что сбой оборудования был бы более случайным, чем один файл, но такой ошибки не было до замены. Просто кажется странным, что на каждом диске была проблема с контрольной суммой.
Файл и снимки плохие только на основном сервере, резервный сервер в порядке.
Ответ или решение
Уважаемый коллега,
Вы столкнулись с весьма интересной и сложной проблемой, связанной с системой хранения данных на ZFS после аппаратного обновления. Рассмотрим эту ситуацию в деталях, основываясь на принципах работы ZFS и возможных причинах возникновения ошибки.
Теория
ZFS (Zettabyte File System) — это файловая система и логический том-менеджер, разработанный для высокой надежности и целостности данных. Одной из ключевых функций ZFS является использование контрольных сумм для проверки целостности данных. Это предотвращает "гниение битов" и позволяет обнаруживать и исправлять ошибки в данных. Когда ZFS выполняет проверку или "скраб" (scrub), он сканирует все данные в пуле и проверяет их контрольные суммы.
Процесс расчета и проверки контрольных сумм выполняется при каждом чтении или записи данных. Если оборудование работает некорректно, ZFS обнаружит это как несоответствие контрольных сумм, как в вашем случае.
Пример
В вашей ситуации каждый диск в массиве ZFS показал ошибку контрольной суммы для одного файла — "Mission Impossible Fallout". Это наводит на мысль, что проблема может быть специфична к определенному набору данных или к определённой операции с ними, но никак не связана непосредственно с физическими неисправностями самих дисков, так как все они выдали одинаковую ошибку на одном и том же файле.
Применение
-
Аппаратное обновление и конфигурации ZFS
Обновление оборудования могло внести изменения в конфигурацию системы, что привело к такой специфической ошибке. Убедитесь, что все параметры BIOS и прошивки нового оборудования настроены корректно и совместимы с ZFS. Проверьте обновления драйверов контроллеров дисков и прочих устройств ввода-вывода.
-
Проверка данных на наличие ошибок
Хотя новый RAM прошел тестирование memtest, ошибки в данных могут быть связаны с другими частями системы. Проверьте системные журналы на наличие сообщений об ошибках, связанных с чтением/записью данных. Убедитесь, что нет проблем с температурой процессора или памятью, которые могут вызывать нестабильную работу или сбои данных.
-
Контрольные суммы и алгоритмы сжатия/шифрования
Посмотрите на конфигурацию пула ZFS. Если используется аппаратное ускорение для сжатия или шифрования, убедитесь, что новое оборудование поддерживает данные алгоритмы без сбоев. В некоторых случаях несоответствия могут быть вызваны изменением реализации аппаратного ускорения.
-
Проверка целостности системы
Попробуйте пересоздать злополучный файл на новом оборудовании и проверить его целостность. Если проблема повторяется только с этим файлом, возможно, данные были повреждены еще до обновления оборудования, а новый скраб лишь обнаружил это. Сравните манифесты и контрольные суммы восстановленного файла с копиями, существующими на вашей резервной системе.
-
Совместимость с операционной системой и ZFS
Обратите внимание на версию ядра и модулей ZFS, установленных на новой аппаратной платформе. Возможны известные проблемы или совместимости с определенными версиями ОС, которые могут быть решены обновлением или сменой конфигурации. Используйте самую последнюю стабильную версию программного обеспечение и ядра, совместимые с вашей версией ОС, чтобы минимизировать технические риски.
Дополнительные шаги
- Проверка кабелей и контроллеров, несмотря на то, что вы отметили малую вероятность неисправности, все же не будет лишней.
- Анализ отчетов о сбоях и предупреждениях, которые могли быть пропущены.
Заключение
Проблема может быть следствием сразу нескольких факторов. Важно систематично устранить наиболее вероятные из них, начиная с проверки совместимости аппаратного и программного обеспечения, конфигураций BIOS, драйверов, а также целостности данных с учетом специфики работы ZFS. Мы рекомендуем сохранить журнал проверок и результаты для более детального анализа и предотвращения подобных ситуаций в будущем.