Данные SMART SSD – ошибка чтения

Вопрос или проблема

Несколько лет назад я купил SSD-накопитель Kingston на 480 Гб (модель UV500) и установил его на настольный компьютер в качестве загрузочного.

Через некоторое время SSD начал давать проблемы при загрузке: диск не распознавался (его не было в списке в BIOS), и компьютер запрашивал вставку загрузочного устройства. Эти проблемы так и не прекратились.

(Сейчас я установил NVMe-диск в качестве загрузочного, который предоставил мне доступ к компьютеру.)

Просматривая SMART данные SSD (полученные с использованием приложения Disks в Ubuntu), я вижу, что переменная “Read Error Rate” имеет огромное число (миллионы).

SMART 1
SMART 2

Таким образом, я спрашиваю, не неисправен ли этот диск, и не является ли он ненужным. Сейчас SSD является вторичным диском, доступным для просмотра…

РЕДАКТИРОВАТЬ: добавлены остальные атрибуты SMART.

Если учитывать SMART: ..

  • Низкое значение атрибута для наработки часов (атрибут 9)
  • Высокое количество событий коррекции ECC (атрибуты 1, 195, 204)
  • Высокое количество RR (это специальная процедура восстановления, связанная с ошибками удержания)

.. похоже, предполагают, что этот SSD в основном исправен, но страдает от ошибок удержания. Ошибки удержания происходят, когда SSD “забывает” сохранённые данные со временем. Это происходит потому, что ячейки флеш-памяти медленно теряют заряд, что может привести к повреждению данных, так как заряд падает ниже критического порога, вызывая изменение значения ячейки с 1 на 0, например, если SSD не включён и не обновляется регулярно.

Если представить ячейку MLC NAND как ведро, которое мы наполняем водой, мы можем представить, как уровень воды в наполненном ведре, медленно испаряясь, может изменить значение, которое ведро представляет, с 01 до 11, когда она пересекает порог1, и, если мы подождём ещё дольше, до 00, когда она пересекает порог2.

введите описание изображения здесь

С помощью ECC контроллер может обнаружить и исправить такое повреждение. Если количество битовых ошибок превышает возможность коррекции ошибок ECC, контроллер может попытаться “восстановление RR”. Немного подстраивая пороги, контроллер может попытаться компенсировать определённое количество “утечки заряда”. Но дополнительная работа, которую контроллер должен выполнить для восстановления данных, снижает общую производительность SSD.

Восстановление кажется вполне выполнимым, поскольку в конечном итоге диск в основном способен восстанавливать данные с помощью RR. Вы можете принять медлительность как должное и скопировать отдельные файлы/папки на другой диск или попытаться создать образ/клонировать диск с помощью инструмента, такого как ddrescue.

Как только данные были восстановлены, вы можете просто отформатировать диск и снова использовать его.

Это может быть усталость от многократной записи флеш-памяти. Попробуйте GRC’s ReadSpeed. Это может дать вам подсказку, если передняя часть диска изнашивается неравномерно или весь диск испорчен.

Также при высоком числе ошибок чтения и 0 перемещённых секторах обязательно попробуйте известный хороший SATA-кабель.

Также проверьте наличие обновлённой прошивки для SSD.

.

Ответ или решение

Понимание, что происходит с SSD, когда наблюдаются проблемы с параметром Read Error Rate, связано с анализом данных S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology). Это система мониторинга, используемая для оценки состояния различных аппаратных подсистем, особенно жестких дисков и SSD. Теперь давайте разбираться в этом более детально, учитывая описанные обстоятельства.

Теория (T): Основы и причины возникновения ошибок чтения на SSD

Начнем с понимания флеш-памяти, на которой основаны SSD. Флеш-память типа NAND работает, храня информацию в виде электрических зарядов в ячейках памяти. Одна из ключевых особенностей флеш-памяти заключается в ее способности «забывать» данные со временем из-за потери заряда в ячейках. Это явление известно как retention errors.

Такие ошибки могут быть частично исправлены за счет механизмов исправления ошибок, встроенных в контроллер SSD, таких как ECC (Код коррекции ошибок) и RR (Recovery Read), которые помогают компенсировать потерю заряда через коррекцию данных и компенсацию небольших погрешностей.

Ваша ситуация, как видно из данных S.M.A.R.T., имеет большое количество событий коррекции ECC и RR, что указывает на возможные retention errors. Низкое значение параметра "Power On Hours" говорит о том, что SSD не использовался очень долго, и может быть, его редко включали, что потенциально усугубляет retention errors.

Пример (E): Описание проблем и причин их возникновения на основании предоставленных данных

В описанном вами случае, Kingston 480 Gb SSD модель UV500 действовал как загрузочный диск на настольном компьютере, но через время начал вызывать проблемы при загрузке, не распознаваясь BIOS. Это может свидетельствовать о сбоях при чтении критических данных из-за низкой целостности данных в памяти.

Просмотрев данные S.M.A.R.T., мы видим, что "Read Error Rate" показывал огромное число ошибок, то есть, каждый раз, когда контроллер пытался прочитать данные с накопителя, он сталкивался со множеством ошибок, которые приходилось корректировать. Высокие показатели атрибутов коррекции ошибок (1, 195, 204) указывают на то, что количество ошибок чтения превышает допустимый порог, и контроллер вынужден задействовать коррекционные механизмы во время операций чтения.

Применение (A): Рекомендации по устранению проблемы

Исходя из характера проблемы, можно предпринять несколько шагов для диагностики и потенциального решения проблемы:

  1. Обновление прошивки: Проверить и при необходимости обновить прошивку SSD. Это может исправить потенциальные баги в контроллере, отвечающем за коррекцию ошибок.

  2. Обновление подключения: Убедиться, что SATA-кабель исправен, так как дефектный кабель может быть причиной проблем с распознаванием диска BIOS.

  3. Диагностика диска: Использовать утилиты диагностики, такие как ddrescue, чтобы извлечь данные с поврежденного SSD, и затем, если данные восстановлены, отформатировать диск и использовать его в менее критичных целях, например, хранения временных данных.

  4. Мониторинг состояния: Использовать утилиты вроде GRC’s ReadSpeed для тестирования скорости чтения и равномерности износа диска. Это может дать представление о том, идет ли проблема от неравномерного износа ячеек памяти.

  5. Анализ распределения ошибки: Копировать критические данные на новый накопитель (например, NVMe, как это сделано в вашем случае) и затем попытаться клонировать оставшиеся данные с помощью специализированных средств восстановления.

После восстановления данных SSD можно форматировать для удаления всех сохранившихся ошибок. Однако, следует помнить, что если SSD продолжает показывать высокие показатели ошибок после вышеперечисленных действий, его надежность оставляет желать лучшего, и продолжительное использование в качестве основного или даже вторичного диска может быть нежелательным.

С точки зрения бизнеса, важно регулярно резервировать данные, особенно если вы подозреваете проблемы с оборудованием, чтобы избежать потенциальной потери данных в будущем.

Оцените материал
Добавить комментарий

Капча загружается...