Вопрос или проблема
У нас есть несколько серверов Dell, подключенных к паре коммутаторов Dell S5232F-ON верхнего уровня, работающих на OS10. Мы пытались настроить VLT на коммутаторах, чтобы каждый сервер мог иметь соединение с обоими коммутаторами и, надеюсь, получить избыточность и, возможно, дополнительную пропускную способность.
Похоже, что это работает нормально, но если я перезагружу один из серверов, соединение остается недоступным для ОС до тех пор, пока я не отключу и не подключу обратно один из трансиверов на сервере (или коммутаторе), после чего оно начинает работать.
Мы следовали этим документам для настройки коммутаторов: https://www.dell.com/support/manuals/en-uk/smartfabric-os10-emp-partner/smartfabric-os-user-guide-10-5-6/configure-vlt?guid=guid-d858a76d-b0ed-46ce-a7dd-0624235d92bc&lang=en-us
Серверы работают на Ubuntu 24.04 и настроены с двумя портами (по одному на каждый коммутатор) в объединении, с мостом сверху для запуска контейнеров/ВМ. Я пробовал несколько разных политик хеширования передачи (уровень 2 + 3, уровень 3 + 4, encaps 3 + 4) на серверах, на случай если это что-то изменит, но, похоже, это не так.
Буду признателен за любые советы 🙂
Ответ или решение
Проблема с потерей соединения при перезагрузке узла в конфигурации VLT (Virtual Link Trunking) на коммутаторах Dell S5232F-ON может возникать по нескольким причинам. Рассмотрим основные аспекты, которые можно проверить и учесть для устранения данной проблемы.
F – Факты
Вы описываете ситуацию, в которой при перезагрузке сервера с Ubuntu 24.04 соединение между сервером и коммутатором теряется, и восстановить его можно только путем физического отключения и повторного подключения трансивера. У серверов установлены две сетевые карты, соединенные с двумя коммутаторами в конфигурации VLT. Вы также упомянули, что пробовали различные политики распределения нагрузки (transmit hash policies), такие как layer 2 + 3 и layer 3 + 4, но это не привело к улучшению ситуации.
O – Оценка
Такое поведение может быть вызвано проблемами с инициализацией сетевых интерфейсов после перезагрузки сервера. В контексте VLT это может указывать на то, что настройки управления состоянием интерфейсов не обрабатываются должным образом после перезагрузки сервера. Существует несколько возможных причин:
-
Настройка VLT на коммутаторах: Проверьте конфигурацию VLT на обоих коммутаторах, чтобы убедиться, что они синхронизированы и работают корректно. Ошибки в конфигурации могут привести к проблемам с подключением.
-
Сетевые интерфейсы: Проверьте настройки сетевых интерфейсов на сервере. Убедитесь, что они корректно настроены для работы в режиме агрегации (bonding) и что параметры are correctly set in the bonding configuration.
-
Проблемы с драйверами: Обновите драйвера сетевых интерфейсов на сервере до последней версии. Известные проблемы с драйверами могут приводить к отсутствию связи после перезагрузки.
R – Рекомендации
-
Настройки Bonding: Убедитесь, что вы используете правильные параметры для настройки агрегации интерфейсов. Например, убедитесь, что указанные режимы (mode) соответствуют требованиям вашей сети и правильно работают с вашим оборудованием.
-
Проверка логов: Изучите системные логи на сервере (например,
dmesg
илиsyslog
) сразу после перезагрузки. Возможно, в логах будут подсказки о том, что происходит с сетевыми интерфейсами. -
Тестирование конфигурации: Попробуйте временно отключить VLT и протестировать работу в стандартной конфигурации, чтобы исключить влияние VLT на данное поведение.
-
Обновление ПО: Рассмотрите возможность обновления прошивки коммутаторов и программного обеспечения на серверах до последних стабильных версий, так как это может помочь устранить известные баги или проблемы совместимости.
-
Обратная связь с поддержкой Dell: Если проблема сохраняется, свяжитесь с технической поддержкой Dell с детальным описанием ситуации. Они могут предложить конкретные рекомендации или исправления по вашей конфигурации.
S – Заключение
Проблемы с потерей соединения при перезагрузке узла в конфигурации VLT могут потребовать всестороннего анализа конфигурации как серверной, так и сетевой части инфраструктуры. Доступные средства диагностики, такие как изучение логов и тестирование различных настроек, могут значительно помочь в выявлении и устранении проблемы. Индивидуальный подход к настройкам поможет обеспечить стабильную работу системы, что критически важно для обеспечения надежности и доступности ваших сервисов.