Вопрос или проблема
Я получил такое сообщение в /var/log/messages
:
25 июн 06:29:27 server.ru smartd[4477]: Устройство: /dev/sda, атрибут использования SMART: 195 Hardware_ECC_Recovered изменился с 46 на 47
#smartctl -a /dev/sda
:
smartctl версия 5.38 [i686-redhat-linux-gnu] Авторские права (C) 2002-8 Брюс Аллен
Домашняя страница: http://smartmontools.sourceforge.net/
=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА ДАННЫХ SMART ===
Структура данных атрибутов SMART, номер версии: 10
Специфические для поставщика атрибуты SMART с пороговыми значениями:
ID# НАЗВАНИЕ_АТРИБУТА ФЛАГ ЗНАЧЕНИЕ ХУДШИЙ ПОРТ ПРИВОД УВЕДОМИЛ ОБ УСПЕХЕ СЫРОЕ_ЗНАЧЕНИЕ
1 Raw_Read_Error_Rate 0x000f 110 088 006 Предаварийный Всегда - 28526210
3 Spin_Up_Time 0x0003 093 093 000 Предаварийный Всегда - 0
4 Start_Stop_Count 0x0032 100 100 020 Старый Всегда - 24
5 Reallocated_Sector_Ct 0x0033 100 100 036 Предаварийный Всегда - 0
7 Seek_Error_Rate 0x000f 087 060 030 Предаварийный Всегда - 471723621
9 Power_On_Hours 0x0032 098 098 000 Старый Всегда - 2520
10 Spin_Retry_Count 0x0013 100 100 097 Предаварийный Всегда - 0
12 Power_Cycle_Count 0x0032 100 100 020 Старый Всегда - 41
187 Reported_Uncorrect 0x0032 100 100 000 Старый Всегда - 0
189 High_Fly_Writes 0x003a 100 100 000 Старый Всегда - 0
190 Airflow_Temperature_Cel 0x0022 068 052 045 Старый Всегда - 32 (Минимум/Максимум за время службы 31/35)
194 Temperature_Celsius 0x0022 032 048 000 Старый Всегда - 32 (0 27 0 0)
195 Hardware_ECC_Recovered 0x001a 047 045 000 Старый Всегда - 105036390
197 Current_Pending_Sector 0x0012 100 100 000 Старый Всегда - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Старый Вне линии - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Старый Всегда - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Старый Вне линии - 0
202 TA_Increase_Count 0x0032 100 253 000 Старый Всегда - 0
Означает ли это, что диск выходит из строя и его нужно заменить? Где я могу прочитать об интерпретации результатов тестирования S.M.A.R.T?
Согласно Стиву Гибсону из Spinrite, значения SMART необходимо учитывать со временем, а не как мгновенные показания. Это означает, что значение 47 не обязательно плохое, если оно было таким на протяжении месяцев. Однако, если значение было 42 час назад и оно быстро растет, это может указывать на то, что диск испытывает трудности с доступом к части данных и вскоре может не суметь считать сектор вообще. В зависимости от значения данных на этом диске, возможно, стоит его заменить.
Высокое значение для этого атрибута на самом деле довольно хорошо:
Параметр Hardware ECC Recovered SMART указывает время между ошибками, исправляемыми ECC.
Во-первых, меньшие значения хуже для SMART, чем большие значения (заметьте, что колонка порога всегда ниже текущего значения). Так что увеличение значения не является поводом для беспокойства. (Однако это правило не применимо к сырьевым значениям.)
Значения SMART имеют тенденцию колебаться (например, ваши значения могли колебаться между 46 и 47, поэтому даже небольшие изменения могут вызывать переключение на другое значение).
Ваш вывод smartctl -a
показывает, что худшее значение, которое было, – это 45, поэтому колебание слегка выше него является нормальным.
Для дополнительной информации посмотрите на Википедию: Атрибуты ATA S.M.A.R.T..
Пожалуйста, обратите внимание, что “меньшие значения хуже” относится только к значениям в трех колонках, обозначенных как “Value”, “Thresh” и “Worst”. И не обязательно применимо к “Raw Value”, так как значения там не нормализованы по данной метрике.
Имейте в виду, что даже обширное исследование, проведенное Google, показало, что многие сбои дисков не предсказывались ошибками SMART. Возможно, то, что вы видите, совершенно нормально, но поскольку у каждого производителя разные метрики для преобразования сырьевых значений в отчётные значения, трудно с уверенностью сказать, испытывает ли ваш диск множество ошибок или нет. Однако такое большое сырьевое число кажется мне странным.
Я бы рекомендовал прочитать все данные с диска (используя dd или rsync на новый диск) и проверять значения SMART по мере выполнения. Если вы видите, что сырьевое число или отчётные значения сильно меняются, я бы начал рассматривать возможность замены диска.
Если я не ошибаюсь, Hardware ECC recovered – это коррекция ошибок при чтении диска, что не является необычным для диска, и они кодируют данные с помощью механизмов коррекции ошибок именно по этой причине. Некоторые контроллеры также поддерживают избыточную информацию в секторах дисков и добавляют еще один уровень коррекции ошибок.
Как говорит Дэйв Ченей, цифры должны отслеживаться со временем. Радикальные изменения в этих статистических данных могут указывать на выход диска из строя. Также следите за ростом списка дефектов – если список дефектов начинает расти или статистика SMART начинает значительно изменяться, тогда вам следует профилактически заменить диск.
С ним ничего не случилось.
Вы всегда можете выполнить
smartctl -t long /dev/yourdrive
Затем через несколько часов запросить его результат
smartctl -a /dev/yourdrive
просто чтобы убедиться.
Ответ или решение
Ответ на вопрос: Стоит ли беспокоиться о высоком значении SMART Hardware_ECC_Recovered?
При получении сообщения о изменении значения атрибута Hardware_ECC_Recovered в вашем журнале, важно учитывать несколько аспектов его интерпретации.
-
Что обозначает атрибут Hardware_ECC_Recovered: Этот атрибут показывает количество ошибок, которые были исправлены кодами исправления ошибок (ECC) при чтении данных с диска. Чем выше значение, тем лучше состояние диска, так как это говорит о меньшем количестве исправленных ошибок.
-
Интерпретация значений: В случае вашего сообщения, значение изменилось с 46 до 47. Поскольку более низкие значения в SMART указывают на ухудшение здоровья диска, увеличение значения Hardware_ECC_Recovered, фактически, говорит о том, что ситуация идет на улучшение или остаётся стабильной. Значение 47 не является тревожным, особенно с учетом истории показателя, где его наихудшее зафиксированное значение — 45. Такие колебания могут быть нормальными.
-
Наблюдение за динамикой показателей: Как и упоминал Стив Гибсон, важно следить за изменениями значений SMART во времени, а не рассматривать их в изоляции. Если вы заметите, что значение начинает быстро снижаться (например, понижается до 42 за короткий период), это может быть признаком проблем с диском. Однако, если значение остаётся стабильным или изменяется незначительно, беспокоиться не о чем.
-
Рекомендации по мониторингу: Рекомендуется регулярно проверять значения SMART вашего диска, особенно если вы замечаете увеличение количества исправленных ошибок. Вы можете использовать утилиту
smartctl
для запуска тестов на диске. Например, выполните следующую команду для запуска длинного теста:smartctl -t long /dev/yourdrive
После завершения теста, проверьте результаты:
smartctl -a /dev/yourdrive
-
Общая надежность SMART: Имейте в виду, что исследования, проведенные Google, показывают, что многие сбои дисков не предсказуемы с помощью SMART. Поэтому даже если значение высокое, это не всегда говорит о проблемах. Тем не менее, если вы заметите роста значений, особенно в таких атрибутах как
Reallocated_Sector_Ct
илиCurrent_Pending_Sector
, возможно, стоит задуматься о замене диска. -
Заключение: Учитывая текущее значение Hardware_ECC_Recovered и его историю, можно сказать, что на данный момент нет оснований для беспокойства. Однако регулярный мониторинг состояния вашего диска — это хорошая практика, и при любых резких изменениях стоит быть готовым к возможной замене устройства.
Если у вас возникнут дополнительные вопросы, не стесняйтесь обратиться за помощью.