Что может вызвать удвоение оборотов вентиляторов сервера после простого перезагрузки?

Вопрос или проблема

В середине декабря я пришел в офис в выходные, чтобы протестировать управление отключением электроэнергии через NUT. Я отключил ИБП, наблюдал, как все виртуальные машины выключаются, а затем выключаются серверы. Я никогда не позволял ИБП полностью разрядиться, просто держал их отключенными достаточно долго, чтобы запустить выключение серверов.

У меня есть два PowerEdge R630 и один R730. Когда я перезагрузил серверы, R630 показались громче обычного. Это типично при запуске, но они продолжали быть громкими и после загрузки. R730 не казался другим.

У меня настроен LibreNMS для мониторинга серверов, и графики скорости вентиляторов подтвердили мои ощущения, что они стали громче. Скорость вентиляторов удвоилась, но нагрузка совсем не изменилась.
Скорость вентиляторов сервера A
Другой сервер еще более драматичен. Это наиболее слабо нагруженный из серверов.
Скорость вентиляторов сервера B

Как вы видите, скорость вентиляторов остается высокой с момента перезагрузки. Я не пробовал снова их выключать, чтобы посмотреть, исправит ли это ситуацию. Я собираюсь сделать это вскоре, но жду очередное благоприятное окно для обслуживания.

По какой-то причине LibreNMS не фиксирует загрузку процессора, но вот данные о загрузке ЦП из другого инструмента. Она существенно не изменилась за последние месяцы.
Загрузка CPU сервера A

Температура системной платы и процессора, конечно, снизилась одновременно с увеличением воздушного потока. Обратите внимание, что эта температура указана в F, а не в C.
Загрузка CPU сервера A

Есть ли идеи, на что можно обратить внимание в iDRAC и/или LibreNMS, что могло бы указать, почему это изменилось? Не было никаких обновлений BIOS или чего-то, связанного с этой перезагрузкой. Я планирую просто перезагрузить их снова, когда будет возможность, но мне бы очень хотелось понять, что могло это вызвать, чтобы я мог предотвратить это в будущем. Наши серверы находятся рядом с нашими офисами, поэтому значительное увеличение уровня шума раздражает людей. Мне не мешает, когда серверы шумные, потому что они должны быть такими, но удвоение шума без какой-либо причины достаточно раздражает.

Ответ или решение

Когда вы сталкиваетесь с ситуацией, когда вентиляторы серверов PowerEdge R630 резко увеличивают свою скорость вращения после перезагрузки, важно систематически расследовать возможные причины. В данном случае, проблема проявилась после тестирования работы серверов с отключенным источником бесперебойного питания (UPS), что уже указывает на некоторые ключевые факторы. Рассмотрим возможные причины этого явления и шаги, направленные на его устранение.

Возможные причины увеличения скорости вентиляторов

  1. Изменения в работе системы охлаждения: В серверных системах часто используются интеллектуальные алгоритмы управления вентиляторами, которые регулируют скорость в зависимости от температуры компонентов. Вероятно, произошел сбой в этих алгоритмах после перезагрузки.

  2. Проблемы с конфигурацией BIOS/UEFI: Обновления или сбои в настройках BIOS могут повлиять на работу вентиляторов. Хотя вы не производили обновление, проблемы могли возникнуть из-за случайных изменений настроек или сбоя.

  3. Датчики температуры: Если один или несколько датчиков температуры некорректно читают данные или вышли из строя, это может преждевременно запускать охлаждение.

  4. iDRAC модуль: iDRAC управляет аппаратными компонентами, включая вентиляторы. Можно проверить, нет ли в его логах признаков неисправности или изменений настроек.

  5. Изменения в электропитании: Отключение и последующее включение питания могло вызвать изменения в настройках электропитания, что может влиять на поведение вентиляторов.

Рекомендуемые шаги по диагностике и устранению проблемы

  • Проверка логов iDRAC: Подключитесь к интерфейсу iDRAC, чтобы проверить целостность логов и обнаружить любые ошибки или предупреждения, которые могли возникнуть в период после перезагрузки.

  • Калибровка вентиляторов: Некоторые серверы Dell поддерживают функцию повторной калибровки вентиляторов через iDRAC. Это может помочь вернуть их к нормальной работе.

  • Обновление прошивки: Хотя у вас не было обновлений, рекомендуется проверить наличие официальных обновлений от Dell для BIOS или iDRAC, которые могут устранить возможные баги.

  • Проверка физического состояния: Убедитесь, что вентиляторы и датчики температуры не повреждены, и что с ними нет физических проблем, таких как пыль или блокировка.

  • Ручная настройка профилей охлаждения: В BIOS/UEFI можно изменить профиль управления вентилятором, например, переключить его в ручной режим и установить консервативные значения.

  • Проверка электропитания: Осмотрите настройки питания в BIOS и удостоверьтесь, что они соответствуют рекомендованным для вашего оборудования.

Заключение

Вероятно, данная проблема связана с программным или аппаратным сбоем в системах управления вентиляторами после сценария с отключением UPS. Последовательная диагностика с акцентом на iDRAC и BIOS поможет определить точный источник проблемы и предотвратить повторение в будущем.

Оцените материал
Добавить комментарий

Капча загружается...