Как определить реальное состояние диска

Вопрос или проблема

В последнее время у меня возникли проблемы с дисками на некоторых из моих серверов хранения данных. Я хотел бы понять, действительно ли диски повреждены или для некоторых из них ошибка может исходить откуда-то еще.

Я заменил диски и затем проверил поврежденные с помощью USB-док-станций (одна для SATA и одна для SAS-дисков). К сожалению, по крайней мере для SAS-диска/станции команды smartctl не поддерживаются, всегда возвращая “SAT command failed”.

Поэтому я решил использовать badblocks для обоих SATA и SAS:

sudo badblocks -t random -w -s -b 4096 /dev/sdo

и, к моему удивлению, я не получил ошибок для обоих дисков после ~2 дней работы. Но я не уверен, могу ли доверять этим результатам и быть уверенным, что диски действительно работают.

Существует ли какой-либо объективный метод оценки состояния диска, даже разрушительный и требующий много времени, который работает с USB-док-станциями?


Обновление: Я снова запустил badblocks с теми же опциями, и оно снова успешно завершилось для обоих дисков. Но для SAS-диска такие сообщения об ошибках стали появляться сразу после завершения выполнения badblocks:

[5459321.359328] usb 2-5: reset SuperSpeed USB device number 14 using xhci_hcd
[5459321.374280] sd 16:0:0:0: [sdn] tag#0 FAILED Result: hostbyte=DID_TIME_OUT driverbyte=DRIVER_OK cmd_age=30s
[5459321.374926] sd 16:0:0:0: [sdn] tag#0 CDB: Read(16) 88 00 00 00 00 07 46 bf ff 80 00 00 00 08 00 00
[5459321.375455] I/O error, dev sdn, sector 31251758976 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 2

Так что теперь я действительно озадачен.

Ответ или решение

Определение истинного состояния здоровья жесткого диска – это сложная задача, особенно в условиях, когда стандартные инструменты мониторинга, такие как SMART, не поддерживаются. В вашем случае использование внешней док-станции усложняет задачу, так как стандартные команды не работают должным образом, особенно для SAS-дисков.

Теория

SMART (Self-Monitoring, Analysis, and Reporting Technology) – это встроенная технология жестких дисков, которая позволяет отслеживать параметры их работы и прогнозировать возможность отказа. Однако, как вы заметили, при использовании через USB-док-станции может быть невозможен доступ к данным SMART, что значительно затрудняет диагностику.

badblocks – это утилита для проверки дисков на наличие плохих секторов путем их последовательного тестирования. Однако, она не всегда может показать полную картину, так как не анализирует состояние аппаратных и логических контроллеров диска.

Пример

Пример вашей ситуации с использованием badblocks показателен: диски прошли проверку без ошибок, но после завершения тестов появились I/O ошибки на SAS-диске. Это указывает на потенциальные проблемы с интерфейсом или контроллером диска, что также может быть связано с ограничениями USB-док-станции.

Применение

Для более точной оценки состояния здоровья дисков следуйте следующим рекомендациям:

  1. Проверка в прямом подключении: Подключите диски напрямую к материнской плате сервера или ПК через их нативный интерфейс (SATA/SAS). Это исключает потенциальные проблемы, связанные с USB-док-станцией.

  2. Использование специализированных утилит:

    • smartctl: Попробуйте снова протестировать диски с использованием smartctl непосредственно при подключении их к системе через SATA/SAS интерфейсы. Убедитесь, что ваша система и контроллеры поддерживают данную утилиту.
    • Ноут: Обратите внимание на ошибки чтения/записи, которые могут указывать на проблемы с сектором или прерыванием передачи данных.
  3. Тестирование на уровне ОС:

    • Используйте дополнительные инструменты, такие как fsck для проверки файловой системы на наличие повреждений, которые могут указывать на скрытые проблемы с диском.
    • Мониторинг системных логов (dmesg) может дать дополнительную информацию о сбоях на дисках, которые происходят во время обычной эксплуатации.
  4. Диагностика с использованием аппаратных решений:

    • Используйте внешние устройства диагностики, которые могут выполнять более углубленные тесты и предоставляют детализированные отчеты о состоянии диска.
    • Некоторые производители предлагают свои собственные решения для диагностики дисков.
  5. Обратитесь к специалистам:

    • Если у вас есть важные данные на диске, которые невозможно передать, обратитесь в лаборатории по восстановлению данных и диагностики, где специалисты могут провести более глубокий анализ диска.

Заключение

Комбинирование различных методов диагностики, как аппаратных, так и программных, а также использование их в условиях, максимально приближенных к штатным, позволит наиболее точно оценить состояние диска. В вашем случае важно исключить возможные проблемы, связанные с интерфейсами передачи данных, и только затем искать механические или логические неполадки.

Оцените материал
Добавить комментарий

Капча загружается...