Вопрос или проблема
В середине декабря я пришел в офис в выходные, чтобы протестировать управление отключением электроэнергии через NUT. Я отключил ИБП, наблюдал, как все виртуальные машины выключаются, а затем выключаются серверы. Я никогда не позволял ИБП полностью разрядиться, просто держал их отключенными достаточно долго, чтобы запустить выключение серверов.
У меня есть два PowerEdge R630 и один R730. Когда я перезагрузил серверы, R630 показались громче обычного. Это типично при запуске, но они продолжали быть громкими и после загрузки. R730 не казался другим.
У меня настроен LibreNMS для мониторинга серверов, и графики скорости вентиляторов подтвердили мои ощущения, что они стали громче. Скорость вентиляторов удвоилась, но нагрузка совсем не изменилась.
Другой сервер еще более драматичен. Это наиболее слабо нагруженный из серверов.
Как вы видите, скорость вентиляторов остается высокой с момента перезагрузки. Я не пробовал снова их выключать, чтобы посмотреть, исправит ли это ситуацию. Я собираюсь сделать это вскоре, но жду очередное благоприятное окно для обслуживания.
По какой-то причине LibreNMS не фиксирует загрузку процессора, но вот данные о загрузке ЦП из другого инструмента. Она существенно не изменилась за последние месяцы.
Температура системной платы и процессора, конечно, снизилась одновременно с увеличением воздушного потока. Обратите внимание, что эта температура указана в F, а не в C.
Есть ли идеи, на что можно обратить внимание в iDRAC и/или LibreNMS, что могло бы указать, почему это изменилось? Не было никаких обновлений BIOS или чего-то, связанного с этой перезагрузкой. Я планирую просто перезагрузить их снова, когда будет возможность, но мне бы очень хотелось понять, что могло это вызвать, чтобы я мог предотвратить это в будущем. Наши серверы находятся рядом с нашими офисами, поэтому значительное увеличение уровня шума раздражает людей. Мне не мешает, когда серверы шумные, потому что они должны быть такими, но удвоение шума без какой-либо причины достаточно раздражает.
Ответ или решение
Когда вы сталкиваетесь с ситуацией, когда вентиляторы серверов PowerEdge R630 резко увеличивают свою скорость вращения после перезагрузки, важно систематически расследовать возможные причины. В данном случае, проблема проявилась после тестирования работы серверов с отключенным источником бесперебойного питания (UPS), что уже указывает на некоторые ключевые факторы. Рассмотрим возможные причины этого явления и шаги, направленные на его устранение.
Возможные причины увеличения скорости вентиляторов
-
Изменения в работе системы охлаждения: В серверных системах часто используются интеллектуальные алгоритмы управления вентиляторами, которые регулируют скорость в зависимости от температуры компонентов. Вероятно, произошел сбой в этих алгоритмах после перезагрузки.
-
Проблемы с конфигурацией BIOS/UEFI: Обновления или сбои в настройках BIOS могут повлиять на работу вентиляторов. Хотя вы не производили обновление, проблемы могли возникнуть из-за случайных изменений настроек или сбоя.
-
Датчики температуры: Если один или несколько датчиков температуры некорректно читают данные или вышли из строя, это может преждевременно запускать охлаждение.
-
iDRAC модуль: iDRAC управляет аппаратными компонентами, включая вентиляторы. Можно проверить, нет ли в его логах признаков неисправности или изменений настроек.
-
Изменения в электропитании: Отключение и последующее включение питания могло вызвать изменения в настройках электропитания, что может влиять на поведение вентиляторов.
Рекомендуемые шаги по диагностике и устранению проблемы
-
Проверка логов iDRAC: Подключитесь к интерфейсу iDRAC, чтобы проверить целостность логов и обнаружить любые ошибки или предупреждения, которые могли возникнуть в период после перезагрузки.
-
Калибровка вентиляторов: Некоторые серверы Dell поддерживают функцию повторной калибровки вентиляторов через iDRAC. Это может помочь вернуть их к нормальной работе.
-
Обновление прошивки: Хотя у вас не было обновлений, рекомендуется проверить наличие официальных обновлений от Dell для BIOS или iDRAC, которые могут устранить возможные баги.
-
Проверка физического состояния: Убедитесь, что вентиляторы и датчики температуры не повреждены, и что с ними нет физических проблем, таких как пыль или блокировка.
-
Ручная настройка профилей охлаждения: В BIOS/UEFI можно изменить профиль управления вентилятором, например, переключить его в ручной режим и установить консервативные значения.
-
Проверка электропитания: Осмотрите настройки питания в BIOS и удостоверьтесь, что они соответствуют рекомендованным для вашего оборудования.
Заключение
Вероятно, данная проблема связана с программным или аппаратным сбоем в системах управления вентиляторами после сценария с отключением UPS. Последовательная диагностика с акцентом на iDRAC и BIOS поможет определить точный источник проблемы и предотвратить повторение в будущем.