Проблема с оперативной памятью ConnectX-3 Pro (HP 546SFP+) и Supermicro X11SSL/X11SSM

Вопрос или проблема

Я только что столкнулся с неожиданной проблемой при обновлении сетевых карт на нескольких моих серверах: когда я устанавливаю одну из моих карт HP 546SFP+ (брендированная HP Mellanox ConnectX-3 PRO с двумя портами SFP+ на 10 Гбит/с) в один из моих серверов, оснащенных материнскими платами Supermicro X11SSL-F или X11SSM-F, они отказываются загружаться с сигналом звукового оповещения, указывающим на “ошибку отсутствия ОЗУ”, если – И ТОЛЬКО ЕСЛИ – на них установлено более 32 ГБ ОЗУ. Я протестировал три разных карты, полученные из разных источников, на четырех серверах в общем (по два с материнскими платами X11SSL-F и X11SSM-F соответственно). Серверы работают отлично уже в течение нескольких лет с различными 16 ГБ ECC DIMM (Samsung, Micron, Kingston). Все серверы заполнены до максимальной емкости ОЗУ, то есть четыре DIMM по 16 ГБ каждый. Как только емкость ОЗУ снижается до 32 ГБ (установлены две DIMM, у меня нет DIMM с меньшей емкостью, чтобы проверить, не является ли причиной отказа загрузки количество DIMM или общая емкость), или если сетевую карту убрать, они запускаются нормально. На других материнских платах (Supermicro X10SSL или X10SSH, максимальная память 32 ГБ) проблема не проявляется. Есть какие-то идеи?

Ответ или решение

Проблема с RAM и сетевыми картами ConnectX-3 Pro на материнских платах Supermicro X11SSL/X11SSM

Обновление сетевых карт в серверах может быть неожиданно сложным процессом, как иллюстрирует ваш опыт с картами HP 546SFP+ на материнских платах Supermicro X11SSL-F и X11SSM-F. В этом ответе мы подробно рассмотрим возможные причины возникновения проблемы, связанной с несовместимостью памяти и сетевых карт, а также предложим пути решения.

Описание проблемы

Как вы описали, при установке сетевой карты HP 546SFP+ (основанной на технологическом решении Mellanox ConnectX-3 Pro) в сервера с материнскими платами Supermicro X11SSL-F и X11SSM-F, наблюдается ошибка и системный сигнал "Нет памяти" (beep code), если объем оперативной памяти превышает 32 ГБ. При этом, система успешно запускается при установленной памяти объемом 32 ГБ или меньшим, а также в случае удаления сетевой карты.

Возможные причины

  1. Несоответствие BIOS: Одна из наиболее вероятных причин может заключаться в устаревшем BIOS или нестабильной прошивке. Некоторые версии BIOS могут иметь проблемы с совместимостью, особенно в рамках определенных конфигураций оборудования. Рекомендуется проверить наличие обновлений BIOS для материнских плат X11SSL-F и X11SSM-F.

  2. Проблемы совместимости компонентов: Ваша конфигурация оперативной памяти (все 16 ГБ DIMMs) может не обнаруживаться корректно в комбинации с новыми сетевыми картами. Несмотря на то что модули памяти от разных производителей (Samsung, Micron, Kingston) могут работать в отдельности, их взаимодействие может дать сбой при определенных условиях. Подумайте о проведении тестов с модулями памяти одного производителя.

  3. Конфликт прерываний (IRQ): Сетевые карты могут занимать критические IRQ линии, особенно при наличии большого количества оперативной памяти. Это может вызывать конфликты, приводящие к сбоям в старте системы.

  4. Проблемы с питанием: Убедитесь, что блок питания вашего сервера способен обеспечить достаточную мощность для всех компонентов, особенно при увеличении объема памяти. Иногда дополнительные устройства требуют большего количества энергии и могут вызывать сбой при старте.

  5. Конфигурация DIMM: Есть вероятность, что ваша материнская плата не поддерживает определенные конфигурации установки DIMM. Попробуйте изменить порядок установки модулей памяти или протестировать различные комбинации с меньшим количеством DIMM. Возможно, проблема кроется в количестве установленных модулей.

Рекомендации по решению проблемы

  1. Обновите BIOS: Первым делом стоит проверить и обновить BIOS до последней версии, так как обновления могут решать проблемы совместимости с новыми устройствами.

  2. Проверьте документацию: Ознакомьтесь с документацией Supermicro относительно поддержки памяти и возможных ограничений по количеству DIMM в зависимости от установленных расширительных карт.

  3. Тестируйте с различной памятью: Если есть возможность, протестируйте систему с меньшим количеством модулей памяти, модулями другого размера или бренда. Это поможет изолировать компонент, вызывающий проблему.

  4. Консультация с производителем: Если ни одно из предложенных решений не помогло, стоит обратиться в техническую поддержку Supermicro или Mellanox для получения более конкретной информации о совместимости.

Надеюсь, эти рекомендации помогут вам устранить возникшую проблему. Изучение совместимости компонентов является важной частью работы с серверами, и правильный подход к тестированию может значительно облегчить процесс устранения неполадок.

Оцените материал
Добавить комментарий

Капча загружается...