Мой Dell PowerEdge R720 запускается только после жесткой перезагрузки. iDRAC и кнопка питания не работают после отключения. Не включается без полного физического сброса.

Вопрос или проблема

Я столкнулся с неприятной проблемой с этим бывшим в употреблении Dell PowerEdge R720, который я только что купил, и надеюсь, кто-то здесь сможет помочь мне разобраться в этом.

После сброса всего на заводские настройки и обновления всей прошивки до последних версий (кроме одной, об этом позже), я заметил, что каждый раз, когда мой сервер выключается (аккуратно или иначе), он переходит в неотзывчивое состояние, где:

  • Сервер не включается повторно при нажатии кнопки питания.
  • iDRAC полностью отключается
    • (нет IPMI, нет веб-доступа, нет активности ЖК-дисплея.)
  • Единственный признак жизни, когда он входит в это состояние, — это несколько светодиодов на материнской плате (например, слоты PCIe сзади), но ни вентиляторы, ни что-то подобное (мой R630 периодически включает вентилятор на несколько секунд, когда сервер выключен, не уверен, нормально ли отсутствие активности вентилятора для R720)
Единственный способ вернуть его к жизни — это выполнить полный аппаратный сброс:
  1. Отключить блоки питания.
  2. Удалить батарею CMOS.
  3. Удерживать кнопку питания, чтобы разрядить остаточную энергию.
  4. Вернуть батарею CMOS, снова подключить питание, и тогда сервер загрузится нормально (автоматически загружается без нажатия кнопки питания).

Дополнительные детали:

  1. Кнопка питания работает для выключения сервера, если он уже запущен, но не включит его обратно.
  2. Как только он включен / во время работы, все работает нормально, и iDRAC доступен и функционален.
  3. Перезагрузки (через Ctrl + Alt + Del) проходят без проблем и не приводят к выключению системы + iDRAC.
  4. Диагностика (тесты ePSA и Lifecycle Controller) не сообщает о проблемах с аппаратным обеспечением.

Что я пробовал:

  1. Сброс на заводские настройки:
    • Сбросил все настройки BIOS на значения по умолчанию и убедился, что “iDRAC Power On” включен.
  2. Обновления прошивки:
    • Обновил прошивку BIOS, iDRAC и Lifecycle Controller до последних версий с помощью утилиты обновления серверов Dell.
    • Единственное исключение — это прошивка блока питания, для которой требуется (по данным обновления прошивки Dell) аккуратное выключение системы, а затем подождать 3-10 минут, чтобы установить прошивку.
      • Это будет катастрофично для меня, так как все аккуратные выключения приводят к состоянию “выключено”, которое я испытываю, где iDRAC и все отключено. Это может (на основе прошивки) предупредить о brick (выходе из строя) блока питания.
  3. Батарея CMOS:
    • Проверил напряжение батареи CMOS (~3В) — оно в норме.
  4. Блоки питания:
    • Оба резервных блока питания в норме (состояние зеленого света).
  5. Физические проверки:
    • Осмотрел материнскую плату на наличие видимых повреждений (конденсаторы, дорожки и т. д.) — ничего заметного не нашел.

Я планирую хранить этот сервер на чердаке как часть моего домашнего лабораторного оборудования, но тот факт, что он не включается снова без полного физического сброса, является огромным неудобством. Мне нужен надежный способ включить его удаленно.

Я почти на грани того, чтобы подключить блоки питания к умному PDU и Raspberry Pi Zero внутри сервера в качестве переключателя батареи CMOS, ха-ха.

Кто-нибудь сталкивался с этой проблемой со своими серверами PowerEdge? Может ли это быть неисправность материнской платы или что-то другое, что я упустил?

Ответ или решение

Конечно, давайте разберем вашу проблему с сервером Dell PowerEdge R720, основываясь на предоставленных вами деталях. Проблема, с которой вы столкнулись — это довольно сложная ситуация, но есть несколько направлений для диагностики и возможных решений.

1. Проблемы с питанием и восстановлением

Ваш сервер не реагирует на power button и iDRAC, что может указывать на проблемы с электрической подачей или конфигурацией BIOS. Основные моменты, которые вам следует учитывать:

  • Настройки BIOS: Несмотря на то, что вы сбросили BIOS к заводским настройкам, важно убедиться, что опция "iDRAC Power On" включена. Возможно, стоит проверить другие параметры, связанные с управлением питанием.
  • Питание iDRAC: Если iDRAC полностью отключен, это может указывать на проблемы с подачей питания на плате. Убедитесь в том, что все соединения надежны.

2. Обновления прошивки

Вы упомянули, что обновили BIOS и прошивку iDRAC, за исключением прошивки ПСУ. Возможно, это имеет критическое значение. Хотя данное обновление и требует от вас использования корректного процесса для последующего включения, оно может оказать влияние на общую стабильность системы. Рассмотрите возможность резервного копирования конфигурации и выполнения обновления прошивки ПСУ в условиях безопасного тестирования.

3. Проверка аппаратных компонентов

Учитывая, что вы уже провели диагностику ePSA иLifecycle Controller без выявления аппаратных неисправностей, здесь есть несколько дополнительных направлений для диагностики:

  • Кабели питания: Проверьте все подключенные кабели на предмет повреждений или коррозии.
  • Модель и версия компонентов: Иногда проблема может заключаться в несовместимости между установленными компонентами. Если вы добавили новые модули, убедитесь, что они соответствуют спецификациям сервера.

4. Кэш памяти и сброс CMOS

Ваш процесс сброса CMOS (извлечение батареи и сброс питания) является временным решением. Это может помочь временно восстановить функциональность, однако причина проблемы может оставаться неизменной. Возможно, стоит рассмотреть методическую проверку:

  • Замена батареи CMOS: Даже если батарея кажется функциональной, попробуйте заменить её новой. Сброс состояния питания может оказывать временный эффект.

5. Потенциальные решения

Если представленные шаги не приносят результата, будет полезно:

  1. Тестирование на минимальной конфигурации: Удалите все дополнительные компоненты, такие как карты расширения и дополнительные модули оперативной памяти. Оставьте только процессор, один модуль памяти и системные диски.
  2. Использование альтернативных методов включения: Как вы упомянули, Smart PDU или Raspberry Pi могут стать временным системным решением. Но прежде чем применять такие меры, проверьте все аппаратные и программные настройки.

Заключение

Ситуация, с которой вы столкнулись, требует внимательного и системного подхода. Учитывая специфику проблемы, прошу вас вести дальнейшую диагностику и, при необходимости, обратиться в техническую поддержку Dell для более глубокого понимания проблемы. В идеале, ремонт или замена материнской платы может быть последним шагом, если другие решения не окажутся эффективными.

Если у вас есть дополнительные вопросы или нужно углубить какой-то аспект, не стесняйтесь обращаться!

Оцените материал
Добавить комментарий

Капча загружается...