Должен ли я беспокоиться о высоком значении SMART Hardware_ECC_Recovered?

Вопрос или проблема

Я получил такое сообщение в /var/log/messages:


25 июн 06:29:27 server.ru smartd[4477]: Устройство: /dev/sda, атрибут использования SMART: 195 Hardware_ECC_Recovered изменился с 46 на 47

#smartctl -a /dev/sda:


smartctl версия 5.38 [i686-redhat-linux-gnu] Авторские права (C) 2002-8 Брюс Аллен
Домашняя страница: http://smartmontools.sourceforge.net/

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА ДАННЫХ SMART ===
Структура данных атрибутов SMART, номер версии: 10
Специфические для поставщика атрибуты SMART с пороговыми значениями:
ID# НАЗВАНИЕ_АТРИБУТА          ФЛАГ     ЗНАЧЕНИЕ ХУДШИЙ ПОРТ           ПРИВОД УВЕДОМИЛ ОБ УСПЕХЕ  СЫРОЕ_ЗНАЧЕНИЕ
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Предаварийный  Всегда       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Предаварийный  Всегда       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Старый       Всегда       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Предаварийный  Всегда       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Предаварийный  Всегда       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Старый       Всегда       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Предаварийный  Всегда       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Старый       Всегда       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Старый       Всегда       -       0
189 High_Fly_Writes         0x003a   100   100   000    Старый       Всегда       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Старый       Всегда       -       32 (Минимум/Максимум за время службы 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Старый       Всегда       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Старый       Всегда       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Старый       Всегда       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Старый       Вне линии      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Старый       Всегда       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Старый       Вне линии      -       0
202 TA_Increase_Count       0x0032   100   253   000    Старый       Всегда       -       0

Означает ли это, что диск выходит из строя и его нужно заменить? Где я могу прочитать об интерпретации результатов тестирования S.M.A.R.T?

Согласно Стиву Гибсону из Spinrite, значения SMART необходимо учитывать со временем, а не как мгновенные показания. Это означает, что значение 47 не обязательно плохое, если оно было таким на протяжении месяцев. Однако, если значение было 42 час назад и оно быстро растет, это может указывать на то, что диск испытывает трудности с доступом к части данных и вскоре может не суметь считать сектор вообще. В зависимости от значения данных на этом диске, возможно, стоит его заменить.

Высокое значение для этого атрибута на самом деле довольно хорошо:

Параметр Hardware ECC Recovered SMART указывает время между ошибками, исправляемыми ECC.

https://kb.acronis.com/content/9131

Во-первых, меньшие значения хуже для SMART, чем большие значения (заметьте, что колонка порога всегда ниже текущего значения). Так что увеличение значения не является поводом для беспокойства. (Однако это правило не применимо к сырьевым значениям.)

Значения SMART имеют тенденцию колебаться (например, ваши значения могли колебаться между 46 и 47, поэтому даже небольшие изменения могут вызывать переключение на другое значение).

Ваш вывод smartctl -a показывает, что худшее значение, которое было, – это 45, поэтому колебание слегка выше него является нормальным.

Для дополнительной информации посмотрите на Википедию: Атрибуты ATA S.M.A.R.T..

Пожалуйста, обратите внимание, что “меньшие значения хуже” относится только к значениям в трех колонках, обозначенных как “Value”, “Thresh” и “Worst”. И не обязательно применимо к “Raw Value”, так как значения там не нормализованы по данной метрике.

Имейте в виду, что даже обширное исследование, проведенное Google, показало, что многие сбои дисков не предсказывались ошибками SMART. Возможно, то, что вы видите, совершенно нормально, но поскольку у каждого производителя разные метрики для преобразования сырьевых значений в отчётные значения, трудно с уверенностью сказать, испытывает ли ваш диск множество ошибок или нет. Однако такое большое сырьевое число кажется мне странным.

Я бы рекомендовал прочитать все данные с диска (используя dd или rsync на новый диск) и проверять значения SMART по мере выполнения. Если вы видите, что сырьевое число или отчётные значения сильно меняются, я бы начал рассматривать возможность замены диска.

Если я не ошибаюсь, Hardware ECC recovered – это коррекция ошибок при чтении диска, что не является необычным для диска, и они кодируют данные с помощью механизмов коррекции ошибок именно по этой причине. Некоторые контроллеры также поддерживают избыточную информацию в секторах дисков и добавляют еще один уровень коррекции ошибок.

Как говорит Дэйв Ченей, цифры должны отслеживаться со временем. Радикальные изменения в этих статистических данных могут указывать на выход диска из строя. Также следите за ростом списка дефектов – если список дефектов начинает расти или статистика SMART начинает значительно изменяться, тогда вам следует профилактически заменить диск.

С ним ничего не случилось.

Вы всегда можете выполнить

smartctl -t long /dev/yourdrive

Затем через несколько часов запросить его результат

smartctl -a /dev/yourdrive

просто чтобы убедиться.

Ответ или решение

Ответ на вопрос: Стоит ли беспокоиться о высоком значении SMART Hardware_ECC_Recovered?

При получении сообщения о изменении значения атрибута Hardware_ECC_Recovered в вашем журнале, важно учитывать несколько аспектов его интерпретации.

  1. Что обозначает атрибут Hardware_ECC_Recovered: Этот атрибут показывает количество ошибок, которые были исправлены кодами исправления ошибок (ECC) при чтении данных с диска. Чем выше значение, тем лучше состояние диска, так как это говорит о меньшем количестве исправленных ошибок.

  2. Интерпретация значений: В случае вашего сообщения, значение изменилось с 46 до 47. Поскольку более низкие значения в SMART указывают на ухудшение здоровья диска, увеличение значения Hardware_ECC_Recovered, фактически, говорит о том, что ситуация идет на улучшение или остаётся стабильной. Значение 47 не является тревожным, особенно с учетом истории показателя, где его наихудшее зафиксированное значение — 45. Такие колебания могут быть нормальными.

  3. Наблюдение за динамикой показателей: Как и упоминал Стив Гибсон, важно следить за изменениями значений SMART во времени, а не рассматривать их в изоляции. Если вы заметите, что значение начинает быстро снижаться (например, понижается до 42 за короткий период), это может быть признаком проблем с диском. Однако, если значение остаётся стабильным или изменяется незначительно, беспокоиться не о чем.

  4. Рекомендации по мониторингу: Рекомендуется регулярно проверять значения SMART вашего диска, особенно если вы замечаете увеличение количества исправленных ошибок. Вы можете использовать утилиту smartctl для запуска тестов на диске. Например, выполните следующую команду для запуска длинного теста:

    smartctl -t long /dev/yourdrive

    После завершения теста, проверьте результаты:

    smartctl -a /dev/yourdrive
  5. Общая надежность SMART: Имейте в виду, что исследования, проведенные Google, показывают, что многие сбои дисков не предсказуемы с помощью SMART. Поэтому даже если значение высокое, это не всегда говорит о проблемах. Тем не менее, если вы заметите роста значений, особенно в таких атрибутах как Reallocated_Sector_Ct или Current_Pending_Sector, возможно, стоит задуматься о замене диска.

  6. Заключение: Учитывая текущее значение Hardware_ECC_Recovered и его историю, можно сказать, что на данный момент нет оснований для беспокойства. Однако регулярный мониторинг состояния вашего диска — это хорошая практика, и при любых резких изменениях стоит быть готовым к возможной замене устройства.

Если у вас возникнут дополнительные вопросы, не стесняйтесь обратиться за помощью.

Оцените материал
Добавить комментарий

Капча загружается...