Вопрос или проблема
Мой не слишком старый SSD Crucial на 4TB, работающий под управлением Proxmox Backup Server (Debian), регулярно присылает мне электронное письмо с сообщением о том, что есть 1 ожидающий плохой сектор.
Я не уверен, вызывает ли это переход файловой системы ext4 в режим только для чтения и неожиданно зависает сервер.
Ниже приведен вывод из smartctl.
Стоит ли мне заменить этот SSD? На него действует гарантия на 5 лет.
Это сообщение было сгенерировано демоном smartd, работающим на:
имя хоста: pbs
Следующее предупреждение/ошибка было зафиксировано демоном smartd:
Устройство: /dev/sda [SAT], 1 в настоящее время нечитаемых (ожидающих) секторов
Информация об устройстве:
CT4000MX500SSD1, S/N:2317, WWN:5-1e6ce78fa, FW:M3CR046, 4.00 TB
Для получения дополнительных сведений смотрите SYSLOG хоста.
Вы также можете использовать утилиту smartctl для дальнейшего расследования.
Еще одно сообщение будет отправлено через 24 часа, если проблема сохранится.
root@pbs:~# smartctl -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.158-2-pve] (локальная сборка)
Авторские права (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО РАЗДЕЛА ИНФОРМАЦИИ ===
Модель устройства: CT4000MX500SSD1
Серийный номер: 2317E6CE78FA
Идентификатор LU WWN устройства: 5 00a075 1e6ce78fa
Версия прошивки: M3CR046
Пользовательская емкость: 4,000,787,030,016 байт [4.00 TB]
Размеры секторов: 512 байт логических, 4096 байт физических
Скорость вращения: Твердотельное устройство
Форм-фактор: 2.5 дюйма
Команда TRIM: Доступна
Устройство: Нет в базе данных smartctl [для получения подробностей используйте: -P showall]
Версия ATA: ACS-3 T13/2161-D revision 5
Версия SATA: SATA 3.3, 6.0 Гб/с (текущая: 6.0 Гб/с)
Местное время: Вт Ноя 12 19:46:59 2024 HKT
Поддержка SMART: Доступна - устройство имеет возможность SMART.
Поддержка SMART: Включена
=== НАЧАЛО РАЗДЕЛА ЧТЕНИЯ ДАННЫХ SMART ===
Результат теста самодиагностики общего состояния SMART: УСПЕШНО
Общие значения SMART:
Статус сбора оффлайн-данных: (0x80) Деятельность по сбору оффлайн-данных
никогда не начиналась.
Авто-сбор данных оффлайн: Включен.
Статус выполнения самотеста: ( 0) Предыдущая рутинная самодиагностика завершилась
без ошибок или никогда не
проводился самотест.
Общее время завершения сбора оффлайн-данных: ( 0) секунд.
Возможности сбора оффлайн-данных: (0x7b) SMART выполняет немедленный оффлайн.
Поддержка включения/выключения автоматического
сбора оффлайн.
приостановка сбора оффлайн по новой
команде.
Поддерживается оффлайн-сканирование поверхности.
Поддерживается самотест.
Поддерживается передача самотеста.
Поддерживается выборочный самотест.
Возможности SMART: (0x0003) Сохраняет данные SMART перед переходом
в режим энергосбережения.
Поддерживает таймер авто-сохранения SMART.
Возможность регистрации ошибок: (0x01) Поддержка регистрации ошибок.
Поддержка общего назначения.
Рекомендуемое время ожидания для короткой рутинной
самодиагностики: ( 2) минуты.
Рекомендуемое время ожидания для расширенной рутинной
самодиагностики: ( 30) минут.
Рекомендуемое время ожидания для передачи рутинной
самодиагностики: ( 2) минуты.
Возможности SCT: (0x0031) Поддержка статуса SCT.
Поддержка управления функциями SCT.
Поддержка таблицы данных SCT.
Номер версии структуры данных атрибутов SMART: 16
Специфические для производителя атрибуты SMART с порогами:
ID# НАЗВАНИЕ_АТРИБУТА ФЛАГ ЗНАЧЕНИЕ ХУДШИЙ ПОРОГ ТИП ОБНОВЛЕНО ПОКОЛЕНИЕ СЫР. ЗНАЧЕНИЕ
1 Raw_Read_Error_Rate 0x002f 100 100 000 Предварительный сбой Всегда - 0
5 Reallocated_Sector_Ct 0x0032 100 100 010 Старый возраст Всегда - 0
9 Power_On_Hours 0x0032 100 100 000 Старый возраст Всегда - 8134
12 Power_Cycle_Count 0x0032 100 100 000 Старый возраст Всегда - 37
171 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 0
172 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 0
173 Unknown_Attribute 0x0032 086 086 000 Старый возраст Всегда - 190
174 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 12
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033 000 000 000 Предварительный сбой Всегда - 174
183 Runtime_Bad_Block 0x0032 100 100 000 Старый возраст Всегда - 0
184 End-to-End_Error 0x0032 100 100 000 Старый возраст Всегда - 0
187 Reported_Uncorrect 0x0032 100 100 000 Старый возраст Всегда - 0
194 Temperature_Celsius 0x0022 060 026 000 Старый возраст Всегда - 40 (Мин/Макс 26/74)
196 Reallocated_Event_Count 0x0032 100 100 000 Старый возраст Всегда - 0
197 Current_Pending_Sector 0x0032 100 100 000 Старый возраст Всегда - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Старый возраст Оффлайн - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Старый возраст Всегда - 0
202 Unknown_SSD_Attribute 0x0030 086 086 001 Старый возраст Оффлайн - 14
206 Unknown_SSD_Attribute 0x000e 100 100 000 Старый возраст Всегда - 0
210 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 0
246 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 1027706144165
247 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 8276981584
248 Unknown_Attribute 0x0032 100 100 000 Старый возраст Всегда - 2312853640
Версия журнала ошибок SMART: 1
Ошибок не зарегистрировано
Структура журнала самотестирования SMART версии 1
Самотесты не были зарегистрированы. [Для запуска самотестов используйте: smartctl -t]
Структура журнала выборочного самотестирования SMART версии 1
СПАН MIN_LBA MAX_LBA ТЕКУЩИЙ_СТАТУС_ТЕСТА
1 0 0 Не тестируется
2 0 0 Не тестируется
3 0 0 Не тестируется
4 0 0 Не тестируется
5 0 0 Завершено [00% осталось] (0-65535)
Флаги выборочного самотестирования (0x0):
После сканирования выбранных диапазонов не Читайте-сканируйте оставшуюся часть диска.
Если выборочное самотестирование ожидает при включении, продолжите через 0 минут задержки.
Ответ или решение
Вопрос: В Crucial 4TB SSD есть один плохой сектор. Что делать?
Ваша ситуация с SSD Crucial 4TB действительно вызывает беспокойство, особенно если на устройстве происходит потеря данных или неожиданное завершение работы сервера. Давайте подробно рассмотрим проблему.
1. Проблема с плохим сектором
Ваше устройство фиксирует наличие одного текущего неподдающегося чтению (pending) сектора, что может указывать на потенциальные проблемы с физическим состоянием SSD. Важно понимать, что SSD могут иногда исправлять ошибки за счет переаллоцированных (reallocated) секторов. Однако в вашем случае именно Current_Pending_Sector
на данный момент равен 1, что свидетельствует о существующем плохом секторе.
2. Возможные последствия
Бэд-секторы могут негативно сказаться на целостности файловой системы. В случае вашего Proxmox Backup Server на основе Debian, возможно, что данный плохой сектор вызывает переход файловой системы в режим только для чтения, что может быть причиной отказов системы. Это, в свою очередь, может привести к потере или повреждению данных. Если сервер "падает" без предупреждения, это может быть связано с ошибками ввода-вывода, вызванными проблемами с диском.
3. Состояние SMART
Вы ввели команду smartctl
и получили отчет, который подтверждает наличие одной проблемы с сектором. В частности, вы можете обратить внимание на следующие моменты:
- Reallocated_Sector_Ct: 0 — это хорошо, так как это указывает на отсутствие переаллоцированных секторов.
- Current_Pending_Sector: 1 — это та самая проблема, требующая внимания.
- SMART overall-health self-assessment test results: PASSED — ваше устройство прошло самодиагностику, но это не исключает наличие проблем с конкретным сектором.
4. Рекомендации по дальнейшим действиям
-
Резервное копирование: Сначала и главное, сделайте резервную копию всех важных данных, хранящихся на этом SSD. Это защитит вашу информацию в случае стремительного ухудшения состояния диска.
-
Тестирование: Запустите полное сканирование с использованием команды
smartctl -t long /dev/sda
для выполнения полного теста, чтобы оценить состояние диска. -
Устранение проблемы: Если плохой сектор не уйдет, попробуйте использовать команду
badblocks
для поиска и, возможно, дальнейшего исправления проблем с сегментами. Однако учтите, что это не гарантирует устранение проблемы. -
Обращение к производителю: Поскольку диск находится на гарантии (менее 5 лет), вам стоит обратиться в службу поддержки Crucial. Они могут предложить замену или помочь с диагностикой устройства. При обращении предоставьте им все соответствующие данные о состоянии вашего SSD, включая результаты
smartctl
.
5. Заключение
Проблема с одним плохим сектором на вашем SSD Crucial 4TB серьезна и требует быстрого решения. В случае дальнейших проблем или ухудшения состояния устройства, лучшим решением будет замена устройства, что также защитит вас от потенциальных потерь данных или сбоев в работе сервера. Не упускайте время – чем быстрее вы отреагируете, тем выше вероятность сохранить данные в безопасности.