PCIe карта, вставленная в определенный слот, вызывает конфликт с сетевым интерфейсом.

Вопрос или проблема

У меня есть Supermicro as-4125gs-tnrt с двойными Genoa 9174F и 256 ГБ ОЗУ. Модель сетевого адаптера — модуль AOM от Supermicro на контроллере Intel X710. Операционная система, которую я использую, — Ubuntu 22.04 LTS.

В настоящее время я сталкиваюсь с проблемой: если я вставляю карту PCIe (Instinct MI200) в слот #11, у меня теряется сетевое подключение, это означает, что ifconfig показывает отключение канала без IP-адреса (однако светодиод на Ethernet-порту горит). Если я убираю карту PCIe, сетевое подключение восстанавливается. Это не происходит в других слотах PCIe.

И сетевой контроллер, и MI200 отображаются в lspci, но dmesg выдал предупреждение о том, что у сетевого адаптера недостаточно линий PCIe для работы — но я не думаю, что это так, так как я экспериментировал с 7 MI200 (в слотах 1-4, слот 8-10) ранее, прежде чем обнаружить эту проблему.

У кого-нибудь есть идеи, что может быть причиной, или какие-либо другие идеи, которые я могу попробовать?

(Обратите внимание, что я в настоящее время работаю с технической поддержкой Supermicro по этой проблеме, но я хочу разобраться в этом как можно скорее)

Ответ или решение

Введение

Вопрос, который вы подняли, касается конфликта между PCIe картой (Instinct MI200) и сетевой картой (NIC) на вашем сервере Supermicro AS-4125GS-TNRT с двойным процессором Genoa 9174F и 256 ГБ оперативной памяти. Данная проблема требует внимательного анализа возможных причин и решений.

Обзор проблемы

При установке PCIe карты в слот №11 вы теряете сетевую связь, что видно по отсутствию IP-адреса в выводе команды ifconfig, несмотря на то, что индикатор на порту Ethernet остается включенным. Это указывает на то, что структура PCI Express может вызывать конфликт из-за нехватки полос пропускания или неправильной конфигурации слотов.

Причины конфликта

  1. Архитектура слотов PCIe:

    • На большинстве материнских плат слоты PCIe подключаются к конкретным линиям, которые могут быть разделенными между устройствами. Если в слот #11 выделяется недостаточное количество линий для поддержки как NIC, так и PCIe карты MI200, может произойти конфликт.
  2. Перекрытие линий PCIe:

    • Учитывая, что вы ранее использовали множество MI200 в слоте 1-4 и 8-10, следует отметить, что слот #11 может быть связан с линиями, которые уже перегружены. Если в системе недостаточно линий PCIe, это может привести к отключению NIC.
  3. Предупреждения в dmesg:

    • Предупреждения о недостаточной ширине полосы PCIe для NIC в выводе dmesg указывают на то, что NIC не получает необходимую полосу для работы. Это серьезный индикатор, который требует дальнейшего расследования.
  4. Конфликт ресурсов:

    • Возможно, что BIOS или UEFI вашей материнской платы имеет определенные настройки, которые могут мешать корректной работе. Например, могут существовать настройки, связанные с приоритетами устройств на шине PCIe.

Рекомендации по устранению проблемы

  1. Проверьте документацию Supermicro:

    • Изучите документы, относящиеся к вашей материнской плате, чтобы точно определить, какие линии PCIe выделены для разных слотов и как они скомпонованы.
  2. Прошивка BIOS/UEFI:

    • Убедитесь, что у вас установлена последняя версия BIOS. Часто обновления устраняют известные проблемы с совместимостью оборудования.
  3. Изменение конфигурации слотов:

    • Попробуйте установить MI200 в другой слот, который не вызывает конфликтов, или временно отключите другие устройства PCIe для тестирования.
  4. Настройки BIOS:

    • Проверьте настройки BIOS/UEFI, относящиеся к конфигурации PCIe. Опции могут включать распределение линий и приоритеты устройств.
  5. Использование утилит диагностики:

    • Применение утилит диагностики, таких как lspci -vvv, поможет вам более детально проанализировать текущую конфигурацию устройств PCIe и состояние линий.
  6. Обратитесь в техническую поддержку:

    • Раз вы уже работаете с поддержкой Supermicro, предоставьте им все обнаруженные вами детали, включая предупреждения из dmesg и вывод команд lspci.

Заключение

Конфликт между вашей PCIe картой и сетевой картой является сложной проблемой, требующей внимательного подхода и анализа. Следуя рекомендованным шагам, вы сможете определить и, возможно, устранить причину этой конфликта. Продолжая работать с технической поддержкой Supermicro, вы также получите дополнительные специализированные рекомендации.

Оцените материал
Добавить комментарий

Капча загружается...