Должен ли я беспокоиться о высоком значении SMART Hardware_ECC_Recovered?

Question 1

Я получил такое сообщение в /var/log/messages:


25 июн 06:29:27 server.ru smartd[4477]: Устройство: /dev/sda, атрибут использования SMART: 195 Hardware_ECC_Recovered изменился с 46 на 47

#smartctl -a /dev/sda:


smartctl версия 5.38 [i686-redhat-linux-gnu] Авторские права (C) 2002-8 Брюс Аллен
Домашняя страница: http://smartmontools.sourceforge.net/

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА ДАННЫХ SMART ===
Структура данных атрибутов SMART, номер версии: 10
Специфические для поставщика атрибуты SMART с пороговыми значениями:
ID# НАЗВАНИЕ_АТРИБУТА          ФЛАГ     ЗНАЧЕНИЕ ХУДШИЙ ПОРТ           ПРИВОД УВЕДОМИЛ ОБ УСПЕХЕ  СЫРОЕ_ЗНАЧЕНИЕ
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Предаварийный  Всегда       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Предаварийный  Всегда       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Старый       Всегда       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Предаварийный  Всегда       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Предаварийный  Всегда       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Старый       Всегда       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Предаварийный  Всегда       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Старый       Всегда       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Старый       Всегда       -       0
189 High_Fly_Writes         0x003a   100   100   000    Старый       Всегда       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Старый       Всегда       -       32 (Минимум/Максимум за время службы 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Старый       Всегда       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Старый       Всегда       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Старый       Всегда       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Старый       Вне линии      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Старый       Всегда       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Старый       Вне линии      -       0
202 TA_Increase_Count       0x0032   100   253   000    Старый       Всегда       -       0

Означает ли это, что диск выходит из строя и его нужно заменить? Где я могу прочитать об интерпретации результатов тестирования S.M.A.R.T?

Question 2

Согласно Стиву Гибсону из Spinrite, значения SMART необходимо учитывать со временем, а не как мгновенные показания. Это означает, что значение 47 не обязательно плохое, если оно было таким на протяжении месяцев. Однако, если значение было 42 час назад и оно быстро растет, это может указывать на то, что диск испытывает трудности с доступом к части данных и вскоре может не суметь считать сектор вообще. В зависимости от значения данных на этом диске, возможно, стоит его заменить.

Question 3

Высокое значение для этого атрибута на самом деле довольно хорошо:

Параметр Hardware ECC Recovered SMART указывает время между ошибками, исправляемыми ECC.

https://kb.acronis.com/content/9131

Question 4

Во-первых, меньшие значения хуже для SMART, чем большие значения (заметьте, что колонка порога всегда ниже текущего значения). Так что увеличение значения не является поводом для беспокойства. (Однако это правило не применимо к сырьевым значениям.)

Значения SMART имеют тенденцию колебаться (например, ваши значения могли колебаться между 46 и 47, поэтому даже небольшие изменения могут вызывать переключение на другое значение).

Ваш вывод smartctl -a показывает, что худшее значение, которое было, – это 45, поэтому колебание слегка выше него является нормальным.

Для дополнительной информации посмотрите на Википедию: Атрибуты ATA S.M.A.R.T..

Пожалуйста, обратите внимание, что “меньшие значения хуже” относится только к значениям в трех колонках, обозначенных как “Value”, “Thresh” и “Worst”. И не обязательно применимо к “Raw Value”, так как значения там не нормализованы по данной метрике.

Question 5

Имейте в виду, что даже обширное исследование, проведенное Google, показало, что многие сбои дисков не предсказывались ошибками SMART. Возможно, то, что вы видите, совершенно нормально, но поскольку у каждого производителя разные метрики для преобразования сырьевых значений в отчётные значения, трудно с уверенностью сказать, испытывает ли ваш диск множество ошибок или нет. Однако такое большое сырьевое число кажется мне странным.

Я бы рекомендовал прочитать все данные с диска (используя dd или rsync на новый диск) и проверять значения SMART по мере выполнения. Если вы видите, что сырьевое число или отчётные значения сильно меняются, я бы начал рассматривать возможность замены диска.

Question 6

Если я не ошибаюсь, Hardware ECC recovered – это коррекция ошибок при чтении диска, что не является необычным для диска, и они кодируют данные с помощью механизмов коррекции ошибок именно по этой причине. Некоторые контроллеры также поддерживают избыточную информацию в секторах дисков и добавляют еще один уровень коррекции ошибок.

Как говорит Дэйв Ченей, цифры должны отслеживаться со временем. Радикальные изменения в этих статистических данных могут указывать на выход диска из строя. Также следите за ростом списка дефектов – если список дефектов начинает расти или статистика SMART начинает значительно изменяться, тогда вам следует профилактически заменить диск.

Question 7

С ним ничего не случилось.

Вы всегда можете выполнить

smartctl -t long /dev/yourdrive

Затем через несколько часов запросить его результат

smartctl -a /dev/yourdrive

просто чтобы убедиться.

Должен ли я беспокоиться о высоком значении SMART Hardware_ECC_Recovered?

Вопрос или проблема

Ответ или решение

Ответ на вопрос: Стоит ли беспокоиться о высоком значении SMART Hardware_ECC_Recovered?