Dell VLT – перезагрузка нижестоящего узла вызывает потерю соединения до тех пор, пока кабель не будет повторно подключен.

Вопрос или проблема

У нас есть несколько серверов Dell, подключенных к паре коммутаторов Dell S5232F-ON верхнего уровня, работающих на OS10. Мы пытались настроить VLT на коммутаторах, чтобы каждый сервер мог иметь соединение с обоими коммутаторами и, надеюсь, получить избыточность и, возможно, дополнительную пропускную способность.

Похоже, что это работает нормально, но если я перезагружу один из серверов, соединение остается недоступным для ОС до тех пор, пока я не отключу и не подключу обратно один из трансиверов на сервере (или коммутаторе), после чего оно начинает работать.

Мы следовали этим документам для настройки коммутаторов: https://www.dell.com/support/manuals/en-uk/smartfabric-os10-emp-partner/smartfabric-os-user-guide-10-5-6/configure-vlt?guid=guid-d858a76d-b0ed-46ce-a7dd-0624235d92bc&lang=en-us

Серверы работают на Ubuntu 24.04 и настроены с двумя портами (по одному на каждый коммутатор) в объединении, с мостом сверху для запуска контейнеров/ВМ. Я пробовал несколько разных политик хеширования передачи (уровень 2 + 3, уровень 3 + 4, encaps 3 + 4) на серверах, на случай если это что-то изменит, но, похоже, это не так.

Буду признателен за любые советы 🙂

Ответ или решение

Проблема с потерей соединения при перезагрузке узла в конфигурации VLT (Virtual Link Trunking) на коммутаторах Dell S5232F-ON может возникать по нескольким причинам. Рассмотрим основные аспекты, которые можно проверить и учесть для устранения данной проблемы.

F – Факты

Вы описываете ситуацию, в которой при перезагрузке сервера с Ubuntu 24.04 соединение между сервером и коммутатором теряется, и восстановить его можно только путем физического отключения и повторного подключения трансивера. У серверов установлены две сетевые карты, соединенные с двумя коммутаторами в конфигурации VLT. Вы также упомянули, что пробовали различные политики распределения нагрузки (transmit hash policies), такие как layer 2 + 3 и layer 3 + 4, но это не привело к улучшению ситуации.

O – Оценка

Такое поведение может быть вызвано проблемами с инициализацией сетевых интерфейсов после перезагрузки сервера. В контексте VLT это может указывать на то, что настройки управления состоянием интерфейсов не обрабатываются должным образом после перезагрузки сервера. Существует несколько возможных причин:

  1. Настройка VLT на коммутаторах: Проверьте конфигурацию VLT на обоих коммутаторах, чтобы убедиться, что они синхронизированы и работают корректно. Ошибки в конфигурации могут привести к проблемам с подключением.

  2. Сетевые интерфейсы: Проверьте настройки сетевых интерфейсов на сервере. Убедитесь, что они корректно настроены для работы в режиме агрегации (bonding) и что параметры are correctly set in the bonding configuration.

  3. Проблемы с драйверами: Обновите драйвера сетевых интерфейсов на сервере до последней версии. Известные проблемы с драйверами могут приводить к отсутствию связи после перезагрузки.

R – Рекомендации

  1. Настройки Bonding: Убедитесь, что вы используете правильные параметры для настройки агрегации интерфейсов. Например, убедитесь, что указанные режимы (mode) соответствуют требованиям вашей сети и правильно работают с вашим оборудованием.

  2. Проверка логов: Изучите системные логи на сервере (например, dmesg или syslog) сразу после перезагрузки. Возможно, в логах будут подсказки о том, что происходит с сетевыми интерфейсами.

  3. Тестирование конфигурации: Попробуйте временно отключить VLT и протестировать работу в стандартной конфигурации, чтобы исключить влияние VLT на данное поведение.

  4. Обновление ПО: Рассмотрите возможность обновления прошивки коммутаторов и программного обеспечения на серверах до последних стабильных версий, так как это может помочь устранить известные баги или проблемы совместимости.

  5. Обратная связь с поддержкой Dell: Если проблема сохраняется, свяжитесь с технической поддержкой Dell с детальным описанием ситуации. Они могут предложить конкретные рекомендации или исправления по вашей конфигурации.

S – Заключение

Проблемы с потерей соединения при перезагрузке узла в конфигурации VLT могут потребовать всестороннего анализа конфигурации как серверной, так и сетевой части инфраструктуры. Доступные средства диагностики, такие как изучение логов и тестирование различных настроек, могут значительно помочь в выявлении и устранении проблемы. Индивидуальный подход к настройкам поможет обеспечить стабильную работу системы, что критически важно для обеспечения надежности и доступности ваших сервисов.

Оцените материал
Добавить комментарий

Капча загружается...