Вопрос или проблема
Я хотел бы понять, почему я получаю нижеуказанные сообщения о S.M.A.R.T. моего нового NVMe диска.
DMESG
$ dmesg --ctime | grep -i nvm
[Пн Авг 8 10:48:31 2022] nvme nvme0: pci function 0000:3d:00.0
[Пн Авг 8 10:48:31 2022] nvme nvme0: отсутствует или недействительное поле SUBNQN.
[Пн Авг 8 10:48:31 2022] nvme nvme0: тайм-аут отключения установлен на 8 секунд
[Пн Авг 8 10:48:31 2022] nvme nvme0: 8/0/0 очереди по умолчанию/чтения/опроса
[Пн Авг 8 10:48:31 2022] nvme0n1: p1 p2
[Пн Авг 8 10:48:37 2022] EXT4-fs (nvme0n1p2): смонтирована файловая система в режиме упорядоченных данных. Опции: (null). Режим квоты: none.
[Пн Авг 8 10:48:37 2022] EXT4-fs (nvme0n1p2): повторно смонтировано. Опции: errors=remount-ro. Режим квоты: none.
ОШИБКИ NVME
$ sudo nvme error-log /dev/nvme0
...
Запись[63]
.................
error_count : 0
sqid : 0
cmdid : 0
status_field : 0(УСПЕХ: Команда успешно выполнена)
phase_tag : 0
parm_err_loc : 0
lba : 0
nsid : 0
vs : 0
trtype : Тип транспорта не указан или ошибка не связана с транспортом.
cs : 0
trtype_spec_info: 0
.................
...
Может ли кто-то пролить свет на то, почему я получаю новые письма как это:
ПОЧТА
# mail
Сообщение 44:
От root@dell-laptop-CENSORED Вс Авг 7 08:13:07 2022
X-Original-To: root
Кому: root@dell-laptop-CENSORED
Тема: Обнаружена ошибка SMART (ErrorCount) на хосте: dell-inspiron-15
MIME-Version: 1.0
Content-Type: text/plain; charset="UTF-8"
Content-Transfer-Encoding: 8bit
Дата: Вс, 7 Авг 2022 08:12:59 +0200 (CEST)
От: root <root@dell-laptop-CENSORED>
Это сообщение было сгенерировано демоном smartd, работающим на:
имя хоста: dell-inspiron-15
DNS домен: [Пусто]
Следующее предупреждение/ошибка было записано демоном smartd:
Устройство: /dev/nvme0, количество записей журнала ошибок увеличилось с 485 до 486
Информация об устройстве:
Samsung SSD 970 EVO Plus 2TB, S/N:<!--CENSORED-->, FW:2B2QEXM7, 2.00 TB
Для получения подробной информации смотрите SYSLOG хоста.
Вы также можете использовать утилиту smartctl для дальнейшего расследования.
Первоначальное сообщение об этой проблеме было отправлено в Пт Апр 22 09:53:56 2022 CEST
Еще одно сообщение будет отправлено через 24 часа, если проблема сохранится.
SMART
# smartctl -a /dev/nvme0n1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-43-generic] (локальная сборка)
Авторские права (C) 2002-20, Брюс Аллен, Кристиан Франке, www.smartmontools.org
=== НАЧАЛО СЕКЦИИ ИНФОРМАЦИИ ===
Модель: Samsung SSD 970 EVO Plus 2TB
Серийный номер: <CENSORED>
Версия прошивки: 2B2QEXM7
PCI Идентификатор/идентификатор подсистемы: 0x144d
IEEE OUI Идентификатор: 0x002538
Общая емкость NVM: 2,000,398,934,016 [2.00 TB]
Не распределенная емкость NVM: 0
ID контроллера: 4
Версия NVMe: 1.3
Количество пространств имен: 1
Размер/емкость пространства имен 1: 2,000,398,934,016 [2.00 TB]
Использование пространства имен 1: 544,784,187,392 [544 Гб]
Размер форматированного LBA пространства имен 1: 512
IEEE EUI-64 пространства имен 1: 002538 5221904ad7
Местное время: Пн Авг 8 11:13:10 2022 CEST
Обновления прошивки (0x16): 3 слота, сброс не требуется
Необязательные команды администратора (0x0017): Безопасность Формат Frmw_DL Тест_Самодиагностики
Необязательные команды NVM (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Атрибуты страницы журнала (0x03): S/H_per_NS Cmd_Eff_Lg
Максимальный размер передачи данных: 512 страниц
Предупреждение Комп. Темп. Порог: 85 Цельсия
Критический Комп. Темп. Порог: 85 Цельсия
Поддерживаемые состояния питания
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 7.50W - - 0 0 0 0 0 0
1 + 5.90W - - 1 1 1 1 0 0
2 + 3.60W - - 2 2 2 2 0 0
3 - 0.0700W - - 3 3 3 3 210 1200
4 - 0.0050W - - 4 4 4 4 2000 8000
Поддерживаемые размеры LBA (NSID 0x1)
Id Fmt Данные Метаданные Относительная Производительность
0 + 512 0 0
=== НАЧАЛО СЕКЦИИ ДАННЫХ SMART ===
Результат теста самодиагностики SMART общего состояния здоровья: ПРОЙДЕНО
SMART/Информация о здоровье (NVMe Журнал 0x02)
Критическое предупреждение: 0x00
Температура: 44 Цельсия
Доступная запасная: 100%
Порог доступной запасной: 10%
Процент использования: 0%
Единицы данных, прочитанные: 5,565,230 [2.84 TB]
Единицы данных, записанные: 2,658,490 [1.36 TB]
Команды чтения хоста: 29,877,415
Команды записи хоста: 18,211,598
Время занятости контроллера: 112
Циклы питания: 240
Время включения: 215
Небезопасные отключения: 5
Ошибки целостности данных и медиа: 0
Записи журнала информации об ошибках: 502
Предупреждение Время Комп. Температуры: 0
Критическое Время Комп. Температуры: 0
Датчик температуры 1: 44 Цельсия
Датчик температуры 2: 39 Цельсия
Информация об ошибках (NVMe Журнал 0x01, 16 из 64 записей)
Num ErrCount SQId CmdId Статус PELoc LBA NSID VS
0 502 0 0x1005 0x4004 - 0 0 -
SYSLOG
# cat /var/log/syslog | grep -i smart | grep -i nvm
Авг 7 16:08:27 dell-inspiron-15 smartd[1001]: Устройство: /dev/nvme0, открыто
Авг 7 16:08:27 dell-inspiron-15 smartd[1001]: Устройство: /dev/nvme0, Samsung SSD 970 EVO Plus 2TB, S/N:S4J4NM0T201785H, FW:2B2QEXM7, 2.00 TB
Авг 7 16:08:27 dell-inspiron-15 smartd[1001]: Устройство: /dev/nvme0, поддерживает SMART. Добавление в список "мониторинга".
Авг 7 16:08:27 dell-inspiron-15 smartd[1001]: Устройство: /dev/nvme0, состояние прочитано из /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 7 16:08:27 dell-inspiron-15 smartd[1001]: Мониторинг 1 ATA/SATA, 0 SCSI/SAS и 1 NVMe устройств
Авг 7 16:08:28 dell-inspiron-15 smartd[1001]: Устройство: /dev/nvme0, количество записей журнала ошибок увеличилось с 486 до 487
Авг 7 16:08:28 dell-inspiron-15 smartd[1001]: Устройство: /dev/nvme0, состояние записано в /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, открыто
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, Samsung SSD 970 EVO Plus 2TB, S/N:S4J4NM0T201785H, FW:2B2QEXM7, 2.00 TB
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, поддерживает SMART. Добавление в список "мониторинга".
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, состояние прочитано из /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Мониторинг 1 ATA/SATA, 0 SCSI/SAS и 1 NVMe устройств
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, количество записей журнала ошибок увеличилось с 487 до 488
Авг 8 07:17:38 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, состояние записано в /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 08:21:16 dell-inspiron-15 smartd[973]: Устройство: /dev/nvme0, состояние записано в /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 11:14:00 dell-inspiron-15 smartd[971]: Устройство: /dev/nvme0, открыто
Авг 8 11:14:00 dell-inspiron-15 smartd[971]: Устройство: /dev/nvme0, Samsung SSD 970 EVO Plus 2TB, S/N:S4J4NM0T201785H, FW:2B2QEXM7, 2.00 TB
Авг 8 11:14:00 dell-inspiron-15 smartd[971]: Устройство: /dev/nvme0, поддерживает SMART. Добавление в список "мониторинга".
Авг 8 11:14:00 dell-inspiron-15 smartd[971]: Устройство: /dev/nvme0, состояние прочитано из /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 11:14:00 dell-inspiron-15 smartd[971]: Мониторинг 1 ATA/SATA, 0 SCSI/SAS и 1 NVMe устройств
Авг 8 11:14:00 dell-inspiron-15 smartd[971]: Устройство: /dev/nvme0, количество записей журнала ошибок увеличилось с 488 до 494
Авг 8 11:14:01 dell-inspiron-15 smartd[971]: Устройство: /dev/nvme0, состояние записано в /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Устройство: /dev/nvme0, открыто
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Устройство: /dev/nvme0, Samsung SSD 970 EVO Plus 2TB, S/N:S4J4NM0T201785H, FW:2B2QEXM7, 2.00 TB
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Устройство: /dev/nvme0, поддерживает SMART. Добавление в список "мониторинга".
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Устройство: /dev/nvme0, состояние прочитано из /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Мониторинг 1 ATA/SATA, 0 SCSI/SAS и 1 NVMe устройств
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Устройство: /dev/nvme0, количество записей журнала ошибок увеличилось с 494 до 502
Авг 8 12:48:40 dell-inspiron-15 smartd[1024]: Устройство: /dev/nvme0, состояние записано в /var/lib/smartmontools/smartd.Samsung_SSD_970_EVO_Plus_2TB-S4J4NM0T201785H.nvme.state
Я думаю, что с высокой вероятностью это вызвано этой ошибкой в smartmontools. Кто-то, участвующий в этой теме, написал о причине сообщений:
Спецификация nvme не является очень последовательной в том, как определить, какие функции поддерживает контроллер, поэтому в некоторых случаях драйвер просто должен попробовать и посмотреть, сработает ли это.
Записи журнала, вероятно, являются безвредными административными командами, инициированными драйвером (SqId 0), проверяющими, поддерживается ли конкретная функция. SSD не обязан записывать запись об ошибке для таких команд, так как это не влияет на здоровье медиапамяти (что именно и должно учитывать SMART), но ему разрешено сохранять ошибку, если он хочет. Лично я нахожу такие ошибки менее чем бесполезными.
Ошибку в smartmontools, т.е. бесполезные сообщения, устранили здесь, и она отсутствует в релизе 7.4 (журнал изменений здесь – “smartd: Больше не выдает предупреждения LOG_CRIT, если новые записи журнала информации об ошибках NVMe не указывают на проблемы с устройством.”). Однако, у отчета об ошибке smartmontools есть дополнение, и мне неясно, было ли это решено.
Ответ или решение
Диагностика ошибок NVMe: Ответы на вопросы и рекомендации
Когда речь идет о диагностике ошибок NVMe, важно понимать ключевые аспекты, которые могут помочь выяснить, почему вы получаете сообщения о проблемах с вашим новым NVMe-диском. Вот анализ предоставленных вами данных и возможные пути решения.
Анализ сообщений об ошибках
На основании данных, предоставленных в вашем запросе, можно выделить следующие ключевые моменты:
-
Сообщение DMESG:
- В выводе команды
dmesg
упоминается "missing or invalid SUBNQN field". Это могут быть зачатки несовместимости или недоработки в драйвере, который не может корректно интерпретировать некоторые параметры NVMe. - Строки о "Shutdown timeout" и "default/read/poll queues" подтверждают, что драйвер успешно управляет подключением диска.
- В выводе команды
-
Логи ошибок NVMe:
- Команда
nvme error-log /dev/nvme0
показывает, что error_count равен 0 для команды с идентификатором 0. Это значит, что конкретные команды, которые выполняются, завершаются успешно, даже если ошибки логируются.
- Команда
-
Сообщения S.M.A.R.T.:
- Сообщения
smartd
о росте количества записей в журнале ошибок подчеркивают, что процесс мониторинга работает. Вы получаете уведомления о том, что количество записей ошибок увеличивается, что является важным индикатором контроля состояния устройства. Однако важно отметить, что это не обязательно указывает на физическое повреждение диска, так как такие записи могут возникать в результате нормальной работы драйвера.
- Сообщения
-
Вывод smartctl:
- Тест S.M.A.R.T. завершился успешно с сообщением "PASSED", но с увеличением количества записей ошибок до 502. Это может быть следствием упомянутого вами бага в smartmontools, где ошибки могут быть связаны с проверками, не имеющими непосредственного отношения к состоянию носителя.
Возможные причины и рекомендации
Ваше предположение о том, что вышеописанные сообщения могут быть связаны с известной проблемой в smartmontools, вполне обосновано. Ключевые рекомендации:
-
Обновление smartmontools: Убедитесь, что вы используете последнюю версию smartmontools (по состоянию на вашу отметку — 7.4 и выше). Это поможет устранить проблемы с ненужными или нерелевантными сообщениями об ошибках.
-
Проверка обновлений драйвера: Регулярно проверяйте наличие обновлений для драйвера вашего NVMe-контроллера. Обновления могут решать проблемы с совместимостью и повышать стабильность работы устройства.
-
Поддержка производительности: Следите за количеством записей ошибок через
nvme error-log
иsmartctl
. Если количество ошибок продолжает расти, следует рассмотреть возможность низков уровне диагностики или обращения в службу поддержки производителя SSD. -
Техническая поддержка: Если у вас остаются сомнения, не стесняйтесь обращаться в службу поддержки Samsung (если это SSD от Samsung). Они могут предоставить дополнительные рекомендации или обновления, которые могут исправить проблемы с совместимостью.
Заключение
Ваша ситуация указывает на то, что ошибки, упоминаемые в логах, скорее всего, не критичны, а являются следствием особенностей реализации драйвера и/или программного обеспечения, чем физического состояния вашего диска. Регулярное обновление программного обеспечения и мониторинг состояния устройства помогут минимизировать риски и обеспечить его стабильную работу.