Неисправный жесткий диск. Что можно интерпретировать из вывода `smartctl -a`?

Question 1

Меня попросили заменить неисправный жесткий диск, который использовался как устройство записи в настройке телевизора.

(2,5″ HDD, простой USB интерфейс, в двухсекционном пластиковом корпусе)

Поскольку у него есть кабель USB типа A, было просто просто подключить его к ноутбуку с Ubuntu.

Дополнительно: USB подключение, по-видимому, работало отлично, устройство, похоже, имеет проблемы только с носителем данных. Поэтому было возможно увидеть…

Кажется, что самые большие файлы — это 200 МБ фрагменты зашифрованных потоковых данных. Остальные файлы, вероятно, являются метаданными различного рода; я даже не буду пытаться расшифровать это, записи представляют собой случайный набор телевизионных программ и занимают 7,5% пространства.

“Disks” говорит:

Модель: TOSHIBA MQ01ABD050V -63 (AX0N1Q)
Разделение: 500 ГБ, главная загрузочная запись, 17 МБ свободно, затем 500 ГБ ext4 v1.0 раздел.
Оценка: Диск в порядке, 16376 поврежденных секторов (29° C / 84° F)

Есть ли больше, что можно интерпретировать из этого, кроме как “множественные нарастающие ошибки чтения”?

Я подозреваю, что “ведущим фактором” поломки является небольшой (даже КРОХОТНЫЙ) полностью закрытый корпус без вентиляции, вызывающий проблемы с перегревом.

Он может также подвергаться воздействию ударов, поскольку устройство стояло рядом с телевизором в течение двух (?) лет. При уборке пыли, упс! Уронили его.

$ sudo smartctl -a /dev/sdb
[sudo] пароль для hannu: 
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.13.0-37-generic] (локальная сборка)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Модель устройства:     TOSHIBA MQ01ABD050V -63
Серийный номер:    885YC2J1TF6G
LU WWN идентификатор устройства: 5 000039 8b43822ba
Версия прошивки: AX0N1Q
Пользовательская емкость:    500 107 862 016 байт [500 ГБ]
Размеры сектора:     512 байт логический, 4096 байт физический
Скорость вращения:    5400 об/мин
Форм-фактор:      2.5 дюйма
Устройство:        Не в базе данных smartctl [подробности: -P showall]
Версия ATA:   ATA8-ACS (минорное исправление не указано)
Версия SATA:  SATA 2.6, 3,0 Гб/с (текущая: 1,5 Гб/с)
Местное время:    Ср март 30 19:53:04 2022 CEST
Поддержка SMART: Есть - устройство поддерживает SMART.
Поддержка SMART: Включена

=== НАЧАЛО РАЗДЕЛА ЧТЕНИЯ ДАННЫХ SMART ===
Результат самостоятельного теста SMART на общее состояние: ПРОШЕЛ

Общие значения SMART:
Статус сбора оффлайн-данных:  (0x00) Активность сбора оффлайн-данных
                    никогда не производилась.
                    Авто отключение сбора данных: Отключено.
Статус выполнения теста:      (   0) Предыдущая рутина тестирования завершена
                    без ошибок или тест никогда 
                    не выполнялся.
Полное время завершения 
сбора оффлайн-данных:        (  120) секунд.
Возможности сбора оффлайн-данных:
                    (0x5b) SMART выполняет немедленно оффлайн.
                    Поддержка включения/выключения офлайн сбора данных.
                    Приостановка офлайн-сбора данных по новому
                    команді.
                    Поддержка поверхностного сканирования.
                    Поддержка самостоятельного тестирования.
                    Поддержка совместного тестирования отсутствует.
                    Поддержка избирательного тестирования.
Возможности SMART:            (0x0003) Сохранение данных SMART перед переходом
                    в режим энергосбережения.
                    Поддержка Автосохранения SMART.
Возможность ведения журналов ошибок:        (0x01) Поддержка ведения журналов ошибок.
                    Поддержка журналирования общего назначения.
Рекомендуемое время для само-
теста:    (   2) минут.
Рекомендуемое время принятия
для расширенного само-теста:    ( 115) минут.
Возможности SCT:          (0x003d) Поддержка статуса SCT.
                    Поддержка управления восстановления ошибок SCT.
                    Поддержка управления функциями SCT.
                    Поддержка таблиц данных SCT.

SMART структура данных с атрибутами изменения: 16
Специфические вендор SMART атрибуты с порогами:
ID# НАЗВАНИЕ_АТРИБУТА          ФЛАГ     ЗНАЧЕНИЕ ХУДШИЙ ПОРОГ ТИП      ОБНОВЛЯЕТСЯ  КОГДА_ОШИБКА СЫРОЕ_ЗНАЧЕНИЕ
  1 Raw_Read_Error_Rate     0x000b   100   084   050    Предполомка  Всегда       -       0
  2 Throughput_Performance  0x0005   100   100   050    Предполомка  Оффлайн      -       0
  3 Spin_Up_Time            0x0027   100   100   001    Предполомка  Всегда       -       1125
  4 Start_Stop_Count        0x0032   100   100   000    Старость   Всегда       -       200
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Предполомка  Всегда       -       10288
  7 Seek_Error_Rate         0x000b   100   100   050    Предполомка  Всегда       -       0
  8 Seek_Time_Performance   0x0005   100   100   050    Предполомка  Оффлайн      -       0
  9 Power_On_Hours          0x0032   033   033   000    Старость   Всегда       -       26898
 10 Spin_Retry_Count        0x0033   103   100   030    Предполомка  Всегда       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Старость   Всегда       -       200
191 G-Sense_Error_Rate      0x0032   100   100   000    Старость   Всегда       -       3
192 Power-Off_Retract_Count 0x0032   100   100   000    Старость   Всегда       -       185
193 Load_Cycle_Count        0x0032   100   100   000    Старость   Всегда       -       200
194 Temperature_Celsius     0x0022   100   100   000    Старость   Всегда       -       27 (Мин/Макс 22/58)
196 Reallocated_Event_Count 0x0032   100   100   000    Старость   Всегда       -       854
197 Current_Pending_Sector  0x0032   100   100   000    Старость   Всегда       -       6088
198 Offline_Uncorrectable   0x0030   100   100   000    Старость   Оффлайн      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Старость   Всегда       -       0
220 Disk_Shift              0x0002   100   100   000    Старость   Всегда       -       0
222 Loaded_Hours            0x0032   033   033   000    Старость   Всегда       -       26898
223 Load_Retry_Count        0x0032   100   100   000    Старость   Всегда       -       0
224 Load_Friction           0x0022   100   100   000    Старость   Всегда       -       0
226 Load-in_Time            0x0026   100   100   000    Старость   Всегда       -       178
240 Head_Flying_Hours       0x0001   100   100   001    Предполомка  Оффлайн      -       0

Журнал ошибок SMART, версия 1
Количество ошибок ATA: 467 (лог устройства содержит только последние пять ошибок)
    CR = Регист команд [HEX]
    FR = Регист функций [HEX]
    SC = Регист счетчика сектор [HEX]
    SN = Регист номера сектор [HEX]
    CL = Регист низкого цилиндр [HEX]
    CH = Регист высокого цилиндр [HEX]
    DH = Регист устройства/головки [HEX]
    DC = Регист команд устройства [HEX]
    ER = Регист ошибок [HEX]
    ST = Регист статуса [HEX]
Время включения рассчитывается с момента включения питания и выводится в формате
DDd+hh:mm:SS.sss, где DD=дни, hh=часы, mm=минуты,
SS=секунды, и sss=миллисекунды. Он "перезапускается" после 49.710 дней.

Ошибка 467 произошла при жизненном времени диска: 26805 часов (1116 дней + 21 час)
  Когда команда, вызвавшая ошибку, выполнялась, устройство было активным или было в состоянии ожидания.

  После завершения команды, регистры были следующими:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 b8 f0 73 13 4d  Ошибка: UNC 184 сектор на LBA = 0x0d1373f0 = 219378672

  Команды, ведущие к команде, вызвавшей ошибку, были следующими:
  CR FR SC SN CL CH DH DC   Время включения питания  Название команды/функции
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 08 a0 73 13 40 00      06:40:51.442  READ DMA EXT
  25 d5 c0 e8 72 13 40 00      06:40:51.333  READ DMA EXT
  25 d5 98 58 71 13 40 00      06:40:51.137  READ DMA EXT
  25 d5 88 d8 6f 13 40 00      06:40:50.928  READ DMA EXT
  25 d5 d0 10 6e 13 40 00      06:40:50.728  READ DMA EXT

Ошибка 466 произошла при жизненном времени диска: 26805 часов (1116 дней + 21 час)
  Когда команда, вызвавшая ошибку, выполнялась, устройство было активным или было в состоянии ожидания.

  После завершения команды, регистры были следующими:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 18 e0 74 13 4d  Ошибка: UNC 24 сектора на LBA = 0x0d1374e0 = 219378912

  Команды, ведущие к команде, вызвавшей ошибку, были следующими:
  CR FR SC SN CL CH DH DC   Время включения питания  Название команды/функции
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 18 e0 74 13 40 00      06:38:34.673  READ DMA EXT
  25 d5 48 a0 73 13 40 00      06:38:31.303  READ DMA EXT
  25 d5 c0 e8 72 13 40 00      06:38:31.292  READ DMA EXT
  25 d5 40 b0 71 13 40 00      06:38:31.083  READ DMA EXT
  25 d5 30 88 6f 13 40 00      06:38:30.890  READ DMA EXT

Ошибка 465 произошла при жизненном времени диска: 26805 часов (1116 дней + 21 час)
  Когда команда, вызвавшая ошибку, выполнялась, устройство было активным или было в состоянии ожидания.

  После завершения команды, регистры были следующими:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 f8 f0 73 13 4d  Ошибка: UNC 248 сектор на LBA = 0x0d1373f0 = 219378672

  Команды, ведущие к команде, вызвавшей ошибку, были следующими:
  CR FR SC SN CL CH DH DC   Время включения питания  Название команды/функции
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 48 a0 73 13 40 00      06:38:31.303  READ DMA EXT
  25 d5 c0 e8 72 13 40 00      06:38:31.292  READ DMA EXT
  25 d5 40 b0 71 13 40 00      06:38:31.083  READ DMA EXT
  25 d5 30 88 6f 13 40 00      06:38:30.890  READ DMA EXT
  25 d5 b8 d8 6d 13 40 00      06:38:30.688  READ DMA EXT

Ошибка 464 произошла при жизненном времени диска: 26798 часов (1116 дней + 14 часов)
  Когда команда, вызвавшая ошибку, выполнялась, устройство было активным или было в состоянии ожидания.

  После завершения команды, регистры были следующими:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 06 c2 76 06 40  Ошибка: UNC 6 сектор на LBA = 0x000676c2 = 423618

  Команды, ведущие к команде, вызвавшей ошибку, были следующими:
  CR FR SC SN CL CH DH DC   Время включения питания  Название команды/функции
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 06 c2 76 06 40 00      00:00:20.982  READ DMA EXT
  25 00 01 c1 76 06 40 00      00:00:17.605  READ DMA EXT
  25 00 01 c0 76 06 40 00      00:00:14.221  READ DMA EXT
  25 00 20 c0 76 06 40 00      00:00:10.840  READ DMA EXT
  25 00 08 b8 76 06 40 00      00:00:10.839  READ DMA EXT

Ошибка 463 произошла при жизненном времени диска: 26798 часов (1116 дней + 14 часов)
  Когда команда, вызвавшая ошибку, выполнялась, устройство было активным или было в состоянии ожидания.

  После завершения команды, регистры были следующими:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 c1 76 06 40  Ошибка: UNC 1 сектор на LBA = 0x000676c1 = 423617

  Команды, ведущие к команде, вызвавшей ошибку, были следующими:
  CR FR SC SN CL CH DH DC   Время включения питания  Название команды/функции
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 01 c1 76 06 40 00      00:00:17.605  READ DMA EXT
  25 00 01 c0 76 06 40 00      00:00:14.221  READ DMA EXT
  25 00 20 c0 76 06 40 00      00:00:10.840  READ DMA EXT
  25 00 08 b8 76 06 40 00      00:00:10.839  READ DMA EXT
  25 00 20 90 76 06 40 00      00:00:10.838  READ DMA EXT

Журнал само-тестирования SMART, структура пересмотра 1
Нет зарегистрированных самостоятельных тестов. [Чтобы запустить тесты, используйте: smartctl -t]

Индивидуальный журнал избирательного самостоятельного тестирования SMART, структура пересмотра 1
 ЭТАП  МИН_LBA  МАКС_LBA  ТЕКУЩИЙ_СТАТУС_ТЕСТА
    1        0        0  Не тестируется
    2        0        0  Не тестируется
    3        0        0  Не тестируется
    4        0        0  Не тестируется
    5        0        0  Не тестируется
Флаги избирательного самостоятельного тестирования (0x0):
  После сканирования выбранных диапазонов, НЕ выполнять сканирование оставшейся части диска.
Если избирательный самостоятельный тест ожидает при включении, возобновите после задержки в 0 минут.


$ smartctl -P showall /dev/sdb1
Для этого диска нет определенных настроек. Его идентификационные строки:
МОДЕЛЬ:    /dev/sdb1
ПРОШИВКА: (любая)
не совпадают ни с одним из известных регулярных выражений.

Question 2

Ханну, не верьте этим глупым односложным оценкам (красный, желтый, зеленый) или однофразовым заключениям, таким как

Оценка: Диск в порядке, 16376 поврежденных секторов (29° C / 84° F)

Диск с 16376 поврежденными секторами НЕ В ПОРЯДКЕ! поскольку это указывает на резкое сокращение ожидаемого срока службы.

Кроме того, 6088 нечитабельных ожидающих секторов также НЕ В ПОРЯДКЕ!.

Ваша температура может сейчас быть 29°C, но она уже была 58°C, и мы не знаем, как долго.
У вас 6088 нечитабельных секторов, 10288 секторов уже были заменены.
Я заменяю диск, как только появляются нечитабельные сектора.

Параметры G-Shock, вероятно, означают, что вы уронили диск 3 раза.
К сожалению, у меня нет опыта с этим конкретным параметром.

Вот соответствующие строки отчета, документирующие повреждение:

Специфические вендор SMART атрибуты с порогами:

ID# НАЗВАНИЕ_АТРИБУТА ФЛАГ ЗНАЧЕНИЕ ХУДШИЙ ПОРОГ ТИП ОБНОВЛЯЕТСЯ КОГДА_ОШИБКА СЫРОЕ_ЗНАЧЕНИЕ

5 Reallocated_Sector_Ct 0x0033 100 100 050 Предполомка Всегда – 10288

191 G-Sense_Error_Rate 0x0032 100 100 000 Старость Всегда – 3

194 Temperature_Celsius 0x0022 100 100 000 Старость Всегда – 27 (Мин/Макс 22/58)

196 Reallocated_Event_Count 0x0032 100 100 000 Старость Всегда – 854

197 Current_Pending_Sector 0x0032 100 100 000 Старость Всегда – 6088

Заключение:

Сделайте дубликат вашего диска с помощью ddrescue или отправьте его в профессиональную лабораторию восстановления данных!

P.S.: Если вы собираетесь сделать дубликат диска с помощью ddrescue, могли бы вы быть так добры, чтобы предоставить ссылку на журнал (mapfile)? Это даст Harrymc возможность пересмотреть свое утверждение. Спасибо.

Question 3

SMART индикаторы диска показывают отсутствие ошибок вообще, нет поврежденных секторов,
ничего. Насколько они касаются, диск находится в идеальном состоянии.

Для тех, кто снизил оценку и не понимает SMART, вот цитата
Из NTFS.com
Атрибуты S.M.A.R.T.:

Значения атрибутов могут варьироваться от 1 до 253 (1 представляет наихудший случай, а 253 представляет наилучший). В зависимости от производителя, значение 100 или 200 часто выбирается как “нормальное” значение.

Для большинства атрибутов значение выше этого порога является хорошим и
означает отсутствие ошибок.

Заслуживает внимания тот факт, что у вас действительно есть 467 ошибок ATA типа
READ DMA EXT.

Согласно статье
Увеличение ошибок ATA на дисках в ReadyNAS:

Ошибки ATA возникают, когда контроллер SATA ReadyNAS не может
связаться с жестким диском.

Контроллер SATA ReadyNAS отправляет команды на жесткий диск.
Когда контроллер не может связаться с диском, это может быть результатом
внутренней аппаратной ошибки самого диска и может требовать замены.

Это в основном означает проблемы материнской платы со связью с диском.

Этот вид ошибок накапливается в течение жизненного цикла диска и временные
метки не содержат даты, поэтому не позволяют определить, когда
ошибки происходили.

Это может быть вызвано плохим кабелем SATA или проблемой с диском.
Попробуйте новый кабель и проведите
SMART тесты с помощью smartctl.
Это может позволить определить, действительно ли диск выходит из строя или нет.

Следите за количеством ошибок ATA, чтобы увидеть, растет ли оно дальше.

Неисправный жесткий диск. Что можно интерпретировать из вывода `smartctl -a`?

Вопрос или проблема

Ответ или решение

Общее состояние диска

Ключевые показатели

Логи ошибок

Возможные причины

Рекомендации

Заключение

Неисправный жесткий диск. Что можно интерпретировать из вывода smartctl -a?

Вопрос или проблема

Ответ или решение

Общее состояние диска

Ключевые показатели

Логи ошибок

Возможные причины

Рекомендации

Заключение

Неисправный жесткий диск. Что можно интерпретировать из вывода `smartctl -a`?