Температура памяти: Один модуль значительно горячее другого – является ли “тревожное” 57°C опасным?

Question 1

У меня есть два модуля RAM (DDR5. Один на 8 ГБ, другой на 16 ГБ). В Linux их температуры показывают следующее, при выполнении некоторой нагруженной задачи:

spd5118-i2c-1-51
Адаптер: SMBus PIIX4 adapter port 0 at 0b00
temp1:        +46.0°C  (low  =  +0.0°C, high = +55.0°C)
                       (crit low =  +0.0°C, crit = +85.0°C)
spd5118-i2c-1-50
Адаптер: SMBus PIIX4 adapter port 0 at 0b00
temp1:        +57.0°C  (low  =  +0.0°C, high = +55.0°C)  ALARM (HIGH)
                       (crit low =  +0.0°C, crit = +85.0°C)

Вопрос 1: Один модуль имеет температуру 46°C, другой 57°C. Нормальна ли эта разница?
Вопрос 2: Эта информация, кажется, поступает от spd 5118. (Не знаю, что это.) В Linux, когда температура превышает порог “high” в 55°C, это отображается как “ALARM”, но если я правильно понимаю, <70°C обычно допустимо, верно? Если так, то слишком ли низкий предел в 55°C без особой причины?

Question 2

В этом контексте модуль ядра Linux spd5118 является драйвером как для датчиков температуры, так и для SPD EEPROM модулей памяти DDR5. Название происходит из спецификации JEDEC для соответствующего чипа метаданных на модулях памяти DDR5.

С DDR4 нужно было использовать два отдельных модуля для той же цели: ee1004 для доступа к информации SPD и jc42 для датчиков температуры DIMM. В DDR3 и более старых версиях использовались либо более старый модуль eeprom, либо более новый at24 для доступа к информации SPD, и модули памяти DDR3 не имели стандартной спецификации для датчиков температуры вообще.

(Доступ к информации SPD позволяет запустить sudo decode-dimms для просмотра технических характеристик вашей памяти.)

Поскольку ваши модули RAM имеют разные размеры, они должны быть разных моделей, и поэтому у них ожидаемо разные тепловые характеристики. Это также означает, что по крайней мере одна треть вашей памяти не работает в двухканальном режиме и в худшем случае – не работает вообще; поэтому вполне возможно, что память для нагруженной задачи выделена из диапазона, который используется только более горячим DIMM, и поэтому он в основном занят, в то время как другой в основном находится в режиме ожидания.

При желании вы можете настроить диапазоны сигналов тревоги, создав конфигурационный файл, например, /etc/sensors.d/memory-temp.conf, с содержимым следующим образом:

chip "spd5118-i2c-*-50"
    label temp1 DIMM1
    set temp1_min 5
    set temp1_max 65
    set temp1_lcrit 2
    set temp1_crit 85

chip "spd5118-i2c-*-51"
    label temp1 DIMM2
    set temp1_min 5
    set temp1_max 65
    set temp1_lcrit 2
    set temp1_crit 85

Обратите внимание, что вы также можете назначать индивидуальные метки для показаний температуры.

После создания файла выполните sudo sensors --set, чтобы новые пределы вступили в силу.

Шина I2C относительно медленная, поэтому возможно, вам придется подождать несколько секунд, чтобы сигналы тревоги исчезли после увеличения предела высокой температуры.

Я бы сказал, что температура модуля памяти в 57 градусов Цельсия на загруженной системе не является неожиданно высокой; однако, поскольку другой модуль памяти значительно прохладнее, я бы проверил, нет ли у более горячего модуля чего-то, что блокирует циркуляцию воздуха к нему, или если у него нет чего-то глупого, например, пластикового (что=теплоизолирующего) корпуса для внешнего вида, вместо действительно функционального металлического радиатора.

Температура памяти: Один модуль значительно горячее другого – является ли “тревожное” 57°C опасным?

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Рекомендации