Критический SSD на 4 ТБ имеет 1 плохой сектор.

Вопрос или проблема

Мой не слишком старый SSD Crucial на 4TB, работающий под управлением Proxmox Backup Server (Debian), регулярно присылает мне электронное письмо с сообщением о том, что есть 1 ожидающий плохой сектор.

Я не уверен, вызывает ли это переход файловой системы ext4 в режим только для чтения и неожиданно зависает сервер.

Ниже приведен вывод из smartctl.

Стоит ли мне заменить этот SSD? На него действует гарантия на 5 лет.

Это сообщение было сгенерировано демоном smartd, работающим на:

  имя хоста:  pbs

Следующее предупреждение/ошибка было зафиксировано демоном smartd:

Устройство: /dev/sda [SAT], 1 в настоящее время нечитаемых (ожидающих) секторов

Информация об устройстве:
CT4000MX500SSD1, S/N:2317, WWN:5-1e6ce78fa, FW:M3CR046, 4.00 TB

Для получения дополнительных сведений смотрите SYSLOG хоста.

Вы также можете использовать утилиту smartctl для дальнейшего расследования.
Еще одно сообщение будет отправлено через 24 часа, если проблема сохранится.
root@pbs:~# smartctl -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.158-2-pve] (локальная сборка)
Авторские права (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org

=== НАЧАЛО РАЗДЕЛА ИНФОРМАЦИИ ===
Модель устройства:     CT4000MX500SSD1
Серийный номер:       2317E6CE78FA
Идентификатор LU WWN устройства: 5 00a075 1e6ce78fa
Версия прошивки:     M3CR046
Пользовательская емкость:    4,000,787,030,016 байт [4.00 TB]
Размеры секторов:     512 байт логических, 4096 байт физических
Скорость вращения:    Твердотельное устройство
Форм-фактор:         2.5 дюйма
Команда TRIM:        Доступна
Устройство:          Нет в базе данных smartctl [для получения подробностей используйте: -P showall]
Версия ATA:         ACS-3 T13/2161-D revision 5
Версия SATA:        SATA 3.3, 6.0 Гб/с (текущая: 6.0 Гб/с)
Местное время:      Вт Ноя 12 19:46:59 2024 HKT
Поддержка SMART:    Доступна - устройство имеет возможность SMART.
Поддержка SMART:    Включена

=== НАЧАЛО РАЗДЕЛА ЧТЕНИЯ ДАННЫХ SMART ===
Результат теста самодиагностики общего состояния SMART: УСПЕШНО

Общие значения SMART:
Статус сбора оффлайн-данных:  (0x80) Деятельность по сбору оффлайн-данных
                    никогда не начиналась.
                    Авто-сбор данных оффлайн: Включен.
Статус выполнения самотеста:  (   0) Предыдущая рутинная самодиагностика завершилась
                    без ошибок или никогда не
                    проводился самотест.
Общее время завершения сбора оффлайн-данных: (    0) секунд.
Возможности сбора оффлайн-данных: (0x7b) SMART выполняет немедленный оффлайн.
                    Поддержка включения/выключения автоматического
                    сбора оффлайн.
                    приостановка сбора оффлайн по новой
                    команде.
                    Поддерживается оффлайн-сканирование поверхности.
                    Поддерживается самотест.
                    Поддерживается передача самотеста.
                    Поддерживается выборочный самотест.
Возможности SMART:    (0x0003) Сохраняет данные SMART перед переходом
                    в режим энергосбережения.
                    Поддерживает таймер авто-сохранения SMART.
Возможность регистрации ошибок: (0x01) Поддержка регистрации ошибок.
                    Поддержка общего назначения.
Рекомендуемое время ожидания для короткой рутинной
самодиагностики:    (   2) минуты.
Рекомендуемое время ожидания для расширенной рутинной
самодиагностики:    (  30) минут.
Рекомендуемое время ожидания для передачи рутинной
самодиагностики:    (   2) минуты.
Возможности SCT:        (0x0031) Поддержка статуса SCT.
                    Поддержка управления функциями SCT.
                    Поддержка таблицы данных SCT.

Номер версии структуры данных атрибутов SMART: 16
Специфические для производителя атрибуты SMART с порогами:
ID# НАЗВАНИЕ_АТРИБУТА        ФЛАГ      ЗНАЧЕНИЕ ХУДШИЙ ПОРОГ ТИП      ОБНОВЛЕНО  ПОКОЛЕНИЕ СЫР. ЗНАЧЕНИЕ
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Предварительный сбой  Всегда       -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   010    Старый возраст   Всегда       -       0
  9 Power_On_Hours          0x0032   100   100   000    Старый возраст   Всегда       -       8134
 12 Power_Cycle_Count       0x0032   100   100   000    Старый возраст   Всегда       -       37
171 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       0
172 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       0
173 Unknown_Attribute       0x0032   086   086   000    Старый возраст   Всегда       -       190
174 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       12
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   000   000   000    Предварительный сбой  Всегда       -       174
183 Runtime_Bad_Block       0x0032   100   100   000    Старый возраст   Всегда       -       0
184 End-to-End_Error        0x0032   100   100   000    Старый возраст   Всегда       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Старый возраст   Всегда       -       0
194 Temperature_Celsius     0x0022   060   026   000    Старый возраст   Всегда       -       40 (Мин/Макс 26/74)
196 Reallocated_Event_Count 0x0032   100   100   000    Старый возраст   Всегда       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Старый возраст   Всегда       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Старый возраст   Оффлайн      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Старый возраст   Всегда       -       0
202 Unknown_SSD_Attribute   0x0030   086   086   001    Старый возраст   Оффлайн      -       14
206 Unknown_SSD_Attribute   0x000e   100   100   000    Старый возраст   Всегда       -       0
210 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       0
246 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       1027706144165
247 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       8276981584
248 Unknown_Attribute       0x0032   100   100   000    Старый возраст   Всегда       -       2312853640

Версия журнала ошибок SMART: 1
Ошибок не зарегистрировано

Структура журнала самотестирования SMART версии 1
Самотесты не были зарегистрированы.  [Для запуска самотестов используйте: smartctl -t]

Структура журнала выборочного самотестирования SMART версии 1
 СПАН  MIN_LBA  MAX_LBA  ТЕКУЩИЙ_СТАТУС_ТЕСТА
    1        0        0  Не тестируется
    2        0        0  Не тестируется
    3        0        0  Не тестируется
    4        0        0  Не тестируется
    5        0        0  Завершено [00% осталось] (0-65535)
Флаги выборочного самотестирования (0x0):
  После сканирования выбранных диапазонов не Читайте-сканируйте оставшуюся часть диска.
Если выборочное самотестирование ожидает при включении, продолжите через 0 минут задержки.

Ответ или решение

Вопрос: В Crucial 4TB SSD есть один плохой сектор. Что делать?

Ваша ситуация с SSD Crucial 4TB действительно вызывает беспокойство, особенно если на устройстве происходит потеря данных или неожиданное завершение работы сервера. Давайте подробно рассмотрим проблему.

1. Проблема с плохим сектором

Ваше устройство фиксирует наличие одного текущего неподдающегося чтению (pending) сектора, что может указывать на потенциальные проблемы с физическим состоянием SSD. Важно понимать, что SSD могут иногда исправлять ошибки за счет переаллоцированных (reallocated) секторов. Однако в вашем случае именно Current_Pending_Sector на данный момент равен 1, что свидетельствует о существующем плохом секторе.

2. Возможные последствия

Бэд-секторы могут негативно сказаться на целостности файловой системы. В случае вашего Proxmox Backup Server на основе Debian, возможно, что данный плохой сектор вызывает переход файловой системы в режим только для чтения, что может быть причиной отказов системы. Это, в свою очередь, может привести к потере или повреждению данных. Если сервер "падает" без предупреждения, это может быть связано с ошибками ввода-вывода, вызванными проблемами с диском.

3. Состояние SMART

Вы ввели команду smartctl и получили отчет, который подтверждает наличие одной проблемы с сектором. В частности, вы можете обратить внимание на следующие моменты:

  • Reallocated_Sector_Ct: 0 — это хорошо, так как это указывает на отсутствие переаллоцированных секторов.
  • Current_Pending_Sector: 1 — это та самая проблема, требующая внимания.
  • SMART overall-health self-assessment test results: PASSED — ваше устройство прошло самодиагностику, но это не исключает наличие проблем с конкретным сектором.

4. Рекомендации по дальнейшим действиям

  1. Резервное копирование: Сначала и главное, сделайте резервную копию всех важных данных, хранящихся на этом SSD. Это защитит вашу информацию в случае стремительного ухудшения состояния диска.

  2. Тестирование: Запустите полное сканирование с использованием команды smartctl -t long /dev/sda для выполнения полного теста, чтобы оценить состояние диска.

  3. Устранение проблемы: Если плохой сектор не уйдет, попробуйте использовать команду badblocks для поиска и, возможно, дальнейшего исправления проблем с сегментами. Однако учтите, что это не гарантирует устранение проблемы.

  4. Обращение к производителю: Поскольку диск находится на гарантии (менее 5 лет), вам стоит обратиться в службу поддержки Crucial. Они могут предложить замену или помочь с диагностикой устройства. При обращении предоставьте им все соответствующие данные о состоянии вашего SSD, включая результаты smartctl.

5. Заключение

Проблема с одним плохим сектором на вашем SSD Crucial 4TB серьезна и требует быстрого решения. В случае дальнейших проблем или ухудшения состояния устройства, лучшим решением будет замена устройства, что также защитит вас от потенциальных потерь данных или сбоев в работе сервера. Не упускайте время – чем быстрее вы отреагируете, тем выше вероятность сохранить данные в безопасности.

Оцените материал
Добавить комментарий

Капча загружается...