Вопрос или проблема
В последнее время у меня возникли проблемы с дисками на некоторых из моих серверов хранения данных. Я хотел бы понять, действительно ли диски повреждены или для некоторых из них ошибка может исходить откуда-то еще.
Я заменил диски и затем проверил поврежденные с помощью USB-док-станций (одна для SATA и одна для SAS-дисков). К сожалению, по крайней мере для SAS-диска/станции команды smartctl не поддерживаются, всегда возвращая “SAT command failed”.
Поэтому я решил использовать badblocks для обоих SATA и SAS:
sudo badblocks -t random -w -s -b 4096 /dev/sdo
и, к моему удивлению, я не получил ошибок для обоих дисков после ~2 дней работы. Но я не уверен, могу ли доверять этим результатам и быть уверенным, что диски действительно работают.
Существует ли какой-либо объективный метод оценки состояния диска, даже разрушительный и требующий много времени, который работает с USB-док-станциями?
Обновление: Я снова запустил badblocks с теми же опциями, и оно снова успешно завершилось для обоих дисков. Но для SAS-диска такие сообщения об ошибках стали появляться сразу после завершения выполнения badblocks:
[5459321.359328] usb 2-5: reset SuperSpeed USB device number 14 using xhci_hcd
[5459321.374280] sd 16:0:0:0: [sdn] tag#0 FAILED Result: hostbyte=DID_TIME_OUT driverbyte=DRIVER_OK cmd_age=30s
[5459321.374926] sd 16:0:0:0: [sdn] tag#0 CDB: Read(16) 88 00 00 00 00 07 46 bf ff 80 00 00 00 08 00 00
[5459321.375455] I/O error, dev sdn, sector 31251758976 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 2
Так что теперь я действительно озадачен.
Ответ или решение
Определение истинного состояния здоровья жесткого диска – это сложная задача, особенно в условиях, когда стандартные инструменты мониторинга, такие как SMART, не поддерживаются. В вашем случае использование внешней док-станции усложняет задачу, так как стандартные команды не работают должным образом, особенно для SAS-дисков.
Теория
SMART (Self-Monitoring, Analysis, and Reporting Technology) – это встроенная технология жестких дисков, которая позволяет отслеживать параметры их работы и прогнозировать возможность отказа. Однако, как вы заметили, при использовании через USB-док-станции может быть невозможен доступ к данным SMART, что значительно затрудняет диагностику.
badblocks – это утилита для проверки дисков на наличие плохих секторов путем их последовательного тестирования. Однако, она не всегда может показать полную картину, так как не анализирует состояние аппаратных и логических контроллеров диска.
Пример
Пример вашей ситуации с использованием badblocks показателен: диски прошли проверку без ошибок, но после завершения тестов появились I/O ошибки на SAS-диске. Это указывает на потенциальные проблемы с интерфейсом или контроллером диска, что также может быть связано с ограничениями USB-док-станции.
Применение
Для более точной оценки состояния здоровья дисков следуйте следующим рекомендациям:
-
Проверка в прямом подключении: Подключите диски напрямую к материнской плате сервера или ПК через их нативный интерфейс (SATA/SAS). Это исключает потенциальные проблемы, связанные с USB-док-станцией.
-
Использование специализированных утилит:
- smartctl: Попробуйте снова протестировать диски с использованием
smartctl
непосредственно при подключении их к системе через SATA/SAS интерфейсы. Убедитесь, что ваша система и контроллеры поддерживают данную утилиту. - Ноут: Обратите внимание на ошибки чтения/записи, которые могут указывать на проблемы с сектором или прерыванием передачи данных.
- smartctl: Попробуйте снова протестировать диски с использованием
-
Тестирование на уровне ОС:
- Используйте дополнительные инструменты, такие как
fsck
для проверки файловой системы на наличие повреждений, которые могут указывать на скрытые проблемы с диском. - Мониторинг системных логов (
dmesg
) может дать дополнительную информацию о сбоях на дисках, которые происходят во время обычной эксплуатации.
- Используйте дополнительные инструменты, такие как
-
Диагностика с использованием аппаратных решений:
- Используйте внешние устройства диагностики, которые могут выполнять более углубленные тесты и предоставляют детализированные отчеты о состоянии диска.
- Некоторые производители предлагают свои собственные решения для диагностики дисков.
-
Обратитесь к специалистам:
- Если у вас есть важные данные на диске, которые невозможно передать, обратитесь в лаборатории по восстановлению данных и диагностики, где специалисты могут провести более глубокий анализ диска.
Заключение
Комбинирование различных методов диагностики, как аппаратных, так и программных, а также использование их в условиях, максимально приближенных к штатным, позволит наиболее точно оценить состояние диска. В вашем случае важно исключить возможные проблемы, связанные с интерфейсами передачи данных, и только затем искать механические или логические неполадки.