Вопрос или проблема
У меня есть Supermicro as-4125gs-tnrt с двойными Genoa 9174F и 256 ГБ ОЗУ. Модель сетевого адаптера — модуль AOM от Supermicro на контроллере Intel X710. Операционная система, которую я использую, — Ubuntu 22.04 LTS.
В настоящее время я сталкиваюсь с проблемой: если я вставляю карту PCIe (Instinct MI200) в слот #11, у меня теряется сетевое подключение, это означает, что ifconfig
показывает отключение канала без IP-адреса (однако светодиод на Ethernet-порту горит). Если я убираю карту PCIe, сетевое подключение восстанавливается. Это не происходит в других слотах PCIe.
И сетевой контроллер, и MI200 отображаются в lspci
, но dmesg
выдал предупреждение о том, что у сетевого адаптера недостаточно линий PCIe для работы — но я не думаю, что это так, так как я экспериментировал с 7 MI200 (в слотах 1-4, слот 8-10) ранее, прежде чем обнаружить эту проблему.
У кого-нибудь есть идеи, что может быть причиной, или какие-либо другие идеи, которые я могу попробовать?
(Обратите внимание, что я в настоящее время работаю с технической поддержкой Supermicro по этой проблеме, но я хочу разобраться в этом как можно скорее)
Ответ или решение
Введение
Вопрос, который вы подняли, касается конфликта между PCIe картой (Instinct MI200) и сетевой картой (NIC) на вашем сервере Supermicro AS-4125GS-TNRT с двойным процессором Genoa 9174F и 256 ГБ оперативной памяти. Данная проблема требует внимательного анализа возможных причин и решений.
Обзор проблемы
При установке PCIe карты в слот №11 вы теряете сетевую связь, что видно по отсутствию IP-адреса в выводе команды ifconfig
, несмотря на то, что индикатор на порту Ethernet остается включенным. Это указывает на то, что структура PCI Express может вызывать конфликт из-за нехватки полос пропускания или неправильной конфигурации слотов.
Причины конфликта
-
Архитектура слотов PCIe:
- На большинстве материнских плат слоты PCIe подключаются к конкретным линиям, которые могут быть разделенными между устройствами. Если в слот #11 выделяется недостаточное количество линий для поддержки как NIC, так и PCIe карты MI200, может произойти конфликт.
-
Перекрытие линий PCIe:
- Учитывая, что вы ранее использовали множество MI200 в слоте 1-4 и 8-10, следует отметить, что слот #11 может быть связан с линиями, которые уже перегружены. Если в системе недостаточно линий PCIe, это может привести к отключению NIC.
-
Предупреждения в dmesg:
- Предупреждения о недостаточной ширине полосы PCIe для NIC в выводе
dmesg
указывают на то, что NIC не получает необходимую полосу для работы. Это серьезный индикатор, который требует дальнейшего расследования.
- Предупреждения о недостаточной ширине полосы PCIe для NIC в выводе
-
Конфликт ресурсов:
- Возможно, что BIOS или UEFI вашей материнской платы имеет определенные настройки, которые могут мешать корректной работе. Например, могут существовать настройки, связанные с приоритетами устройств на шине PCIe.
Рекомендации по устранению проблемы
-
Проверьте документацию Supermicro:
- Изучите документы, относящиеся к вашей материнской плате, чтобы точно определить, какие линии PCIe выделены для разных слотов и как они скомпонованы.
-
Прошивка BIOS/UEFI:
- Убедитесь, что у вас установлена последняя версия BIOS. Часто обновления устраняют известные проблемы с совместимостью оборудования.
-
Изменение конфигурации слотов:
- Попробуйте установить MI200 в другой слот, который не вызывает конфликтов, или временно отключите другие устройства PCIe для тестирования.
-
Настройки BIOS:
- Проверьте настройки BIOS/UEFI, относящиеся к конфигурации PCIe. Опции могут включать распределение линий и приоритеты устройств.
-
Использование утилит диагностики:
- Применение утилит диагностики, таких как
lspci -vvv
, поможет вам более детально проанализировать текущую конфигурацию устройств PCIe и состояние линий.
- Применение утилит диагностики, таких как
-
Обратитесь в техническую поддержку:
- Раз вы уже работаете с поддержкой Supermicro, предоставьте им все обнаруженные вами детали, включая предупреждения из
dmesg
и вывод командlspci
.
- Раз вы уже работаете с поддержкой Supermicro, предоставьте им все обнаруженные вами детали, включая предупреждения из
Заключение
Конфликт между вашей PCIe картой и сетевой картой является сложной проблемой, требующей внимательного подхода и анализа. Следуя рекомендованным шагам, вы сможете определить и, возможно, устранить причину этой конфликта. Продолжая работать с технической поддержкой Supermicro, вы также получите дополнительные специализированные рекомендации.