Вопрос или проблема
Мой HP ProLiant DL360P G8 начал вести себя странно после того, как я включил его впервые с прошлого года. При включении он проходит POST, но застревает на “Memory and QPI Initialization Start” с кодом состояния 0168 и процентом 20%. Дальше этого момента он не продвигается.
Я пытался очистить CMOS и NVRAM, как удалением батареи CMOS, так и блока питания, и переключением переключателя обслуживания #6, обновлению BIOS, повторно установил/удалил и даже протестировал без памяти. Также я пытался использовать резервный ROM через переключатели #1, #5, #6 без успеха, на экране ничего, только сигналы. Если я пытаюсь переключить ROM через ILO 4, ничего не происходит. Пока не нашел что-то подобное моей проблеме онлайн, может, есть советы?
Характеристики:
- 1 Intel Xeon E5-2620
- 2x HP 16GB RDIMM 647653-081 в слотах 1 и 12
- 2x HP 4GB RDIMM 647647-071 в слотах 4 и 9
Ничего другого не подключено, кроме встроенной рейд-карты и HP NIC
Пожалуйста, проверьте состояние вашей клавиатуры, мыши и видео.
Вы используете KVM?
HP ProLiant DL360 G7 зависает на экране “Power and Thermal Calibration”
Попробуйте установить только два 16GB RDIMMs в слоты 12A и 9B и посмотрите, загрузится ли сервер без проблем. Оставьте два 4GB RDIMMs вне сервера для теста. Если проблема сохраняется, поменяйте местами два 4GB RDIMMs с 16GB RDIMMs. Это исключит возможность неисправной карты памяти.
Ответ или решение
Уважаемый коллега,
Рассмотрим проблемы, связанные с зависанием вашего сервера HP ProLiant DL360P G8 на этапе POST (Power-On Self-Test) при инициализации "Memory and QPI Initialization Start" с кодом статуса 0168 и отметкой прогресса на уровне 20%. Эта проблема может быть связана с рядом факторов, включая неисправность оборудования, проблемы с конфигурацией или ошибки в прошивке. Давайте проанализируем возможные причины и предложим решения.
Теория
POST — это важный этап самодиагностики, который выполняется сервером на начальных стадиях загрузки. Он выявляет аппаратные неисправности и конфликты конфигурации. Ваш случай указывает на проблему с инициализацией памяти или процессором/QPI (Quick Path Interconnect), что может быть вызвано несколькими факторами:
- Проблемы с совместимостью памяти: Несовместимые или неисправные модули памяти могут вызвать зависание на этапе инициализации.
- Неисправность оборудования: Поврежденная материнская плата, процессор или другие компоненты могут стать причиной остановки на этом этапе.
- Ошибки в прошивке: Устаревшая или поврежденная прошивка BIOS может вызвать проблемы с инициализацией оборудования.
- Конфликт конфигурации: Неправильная установка или комбинация установленных модулей памяти может вызвать ошибки на этапе POST.
Пример
Рассмотрим ваш конкретный случай: после длительного простоя сервер начал зависать на этапе инициализации памяти. Вы уже попытались предпринять несколько шагов для устранения проблемы, включая сброс CMOS и NVRAM, обновление BIOS, а также переключение ROM и проверку различных комбинаций памяти. Однако ни один из этих подходов не дал результатов.
Применение
-
Соответствие памяти и ее тестирование:
- Полностью удалите все модули памяти и установите только два 16GB RDIMM в слоты, рекомендованные производителем для минимальной конфигурации (например, слоты 1 и 2, если указано в документации).
- Попробуйте запустить сервер с этой минимальной конфигурацией. Если сервер загружается, поочередно добавляйте другие модули памяти, чтобы выявить неисправный модуль.
- Также можно использовать инструменты диагностики памяти, если сервер поддерживает их использование на уровне BIOS или через специализированные средства HP, такие как Insight Diagnostics.
-
Проверка оборудования:
- Если проблема сохраняется, возможно, имеет смысл протестировать процессор на другой аналогичной системе (если доступно) или установить другой совместимый процессор в текущий сервер для проверки гипотезы о неисправности процессора.
- Убедитесь, что все соединения между компонентами правильные и надежные. Проверьте наличие физических повреждений на материнской плате или других видимых дефектов.
-
Обновление и тестирование прошивки:
- Перепроверьте текущую версию BIOS и убедитесь, что он действительно обновлен до последнего стабильного релиза, предоставленного HP. Обратите внимание, что иногда более новый неофициальный релиз может иметь баги, поэтому рассмотрите варианты даунгрейда до более стабильной версии.
- Используйте ILO (Integrated Lights-Out) для проведения комплексного анализа состояния сервера и проверки его журнала событий для более специфической информации об ошибках и предупреждениях.
-
Конфигурация и сброс:
- После всех манипуляций выполните повторную проверку конфигурации BIOS и системы. Рекомендации по правильной конфигурации памяти для вашего серверного оборудования могут быть заданы в официальных руководствах HP.
- Рассмотрите возможность выполнения сброса всех конфигураций к заводским настройкам, но только после сохранения всех критически важных данных конфигурации.
-
Прочие соображения:
- Если у вас есть возможность подключения к серверу через KVM или прямой доступ, убедитесь, что на экран выводятся все POST-сообщения, чтобы точно отслеживать в каком месте происходит сбой.
В целом, важно систематически подходить к выявлению источника проблемы, исключая каждый возможный фактор поочередно. В случае, если никаких изменений не произошло после выполненных рекомендаций, это может значить, что проблема более глубокая и потребуется обширная диагностика при помощи специалистов сервиса HP.
Буду рад подробнее обсудить любые вопросы или предложения по дальнейшим шагам. Удачи в решении проблемы.
С уважением,
[Ваше имя]