Вопрос или проблема
Я создал одновузловой кластер для Nutanix на VMWare ESXi 7 с конфигурацией: 16 CPU, 64 ГБ RAM, 64 ГБ диск гипервизора, 200 ГБ диск CVM и 1,4 ТБ диск данных с одним CVM. Я успешно развернул гипервизор и могу получить доступ к Prism UI. Я использую Nutanix версии 6.8.1 CE.
Теперь я пытаюсь развернуть Nutanix Files на гипервизоре, где у меня есть одна неуправляемая сеть, которую я использовал для клиентской и сетевой памяти, так как это тестовая среда. Мои CVM, AD и файловый сервер находятся в одном диапазоне подсетей и пингуются друг с другом. Теперь, когда я начинаю развертывать файловый сервер, прогресс застревает на 50% и завершается с ошибкой – “Не удалось достичь FileServerVm NTNX-vmname-1 от Nutanix Controller Vm Пожалуйста, проверьте конфигурацию сети от Contr”.
Я проверил minerva_cvm.log, где IP клиентской сети не удавалось достичь от CVM и завершилось следующими ошибками
2025-03-12 19:58:19,062Z INFO 44700128 infra_uvm.py:106 No route to host found.
2025-03-12 19:58:24,069Z INFO 44700128 file_server.py:3195 Waiting for FSVM NTNX-nutnxfiles-1 to be up and running.
2025-03-12 19:58:32,140Z WARNING 44700128 genesis_client.py:86 Failed to reach genesis on any of the svm_ips: [‘172.24.147.87’]
и cassandra,выкинул следующую ошибку
I20250313 11:10:38.000743Z 40947(0x7f3e7c53f400) zookeeper_init:994] Initiating client connection, host=zk1:9876 sessionTimeout=12000 watcher=0x7f3e8693d6c0 sessionId=0 sessionPasswd= context=0x558d6f471e40 flags=0
I20250313 11:10:38.000745Z 40947(0x7f3e7b8f4700) zookeeper_interest:1950] Connecting to server 172.24.147.96:9876
I20250313 11:10:38.000745Z 40947(0x7f3e7b8f4700) zookeeper_interest:1987] Zookeeper handle state changed to ZOO_CONNECTING_STATE for socket [172.24.147.96:9876]
I20250313 11:10:38.000745Z 40947(0x7f3e7b8f4700) check_events:2196] initiated connection to server [172.24.147.96:9876]
I20250313 11:10:38.000748Z 40947(0x7f3e7b8f4700) check_events:2244] session establishment complete on server [172.24.147.96:9876], sessionId=0x1958f30c8f50021, negotiated timeout=12000
kill: usage: kill [-s sigspec | -n signum | -sigspec] pid | jobspec … or kill -l [sigspec]
kill: usage: kill [-s sigspec | -n signum | -sigspec] pid | jobspec … or kill -l [sigspec]
E20250313 11:10:41.363291Z 41532 tcp_client.cc:315] Connection to 127.0.0.1:2049 failed with socket error 111
E20250313 11:10:41.363566Z 41520 counters_vdisk_store.cc:166] Mounting stats container failed with rpc status 2
E20250313 11:10:41.363584Z 41520 counters_backend.cc:171] Failed to initialize counters store with error 1
E20250313 11:10:41.363595Z 41520 counters_backend.cc:182] Failed to mount container
Предупреждение:
Хранилище ключей JKS использует проприетарный формат. Рекомендуется мигрировать на PKCS12, который является отраслевым стандартом, с использованием “keytool -importkeystore -srckeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -destkeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -deststoretype pkcs12”.
Предупреждение:
Хранилище ключей JKS использует проприетарный формат. Рекомендуется мигрировать на PKCS12, который является отраслевым стандартом, с использованием “keytool -importkeystore -srckeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -destkeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -deststoretype pkcs12”.
Подпись ок
subject=C = US, O = nutanix, OU = nutanix, CN = cassandra_node
Получение приватного ключа CA
Сертификат был добавлен в хранилище ключей
Предупреждение:
Вход использует алгоритм подписи SHA1withRSA, который считается угрозой безопасности и отключен.
Хранилище ключей JKS использует проприетарный формат. Рекомендуется мигрировать на PKCS12, который является отраслевым стандартом, с использованием “keytool -importkeystore -srckeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -destkeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -deststoretype pkcs12”.
Ответ на сертификат был установлен в хранилище ключей
Предупреждение:
Хранилище ключей JKS использует проприетарный формат. Рекомендуется мигрировать на PKCS12, который является отраслевым стандартом, с использованием “keytool -importkeystore -srckeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -destkeystore /home/nutanix/data/cassandra/conf/cassandra_keystore.jks -deststoretype pkcs12”.
E20250313 11:10:43.014400Z 40947 cassandra_monitor.cc:10656] to_ret=
cassandra_ring_state:
172.24.147.96,00000000dBhKHoScQrqW2jxn1yjkukjmnLH1uhDzDosb9nOBv0kyHmBNOnUF,kNormal\n
E20250313 11:10:43.148834Z 41781 rpc_client_v2.cc:2773] Connection was refused
E20250313 11:10:43.186491Z 41781 tcp_client.cc:315] Connection to 172.24.147.96:9161 failed with socket error 111
E20250313 11:10:43.186651Z 41781 rpc_client_v2.cc:2773] Connection was refused
E20250313 11:10:43.224460Z 41781 rpc_client_v2.cc:2773] Connection was refused
E20250313 11:10:43.224884Z 41781 tcp_client.cc:315] Connection to 172.24.147.96:9161 failed with socket error 111
E20250313 11:10:43.261292Z 41781 rpc_client_v2.cc:2773] Connection was refused
Я не смог выяснить, является ли это ошибкой уровня ISO или моей ошибкой конфигурации сети. Так как с моего CVM я мог пинговать IP-адрес клиентской сети. Любая помощь в этом…
Ответ или решение
Когда речь идет о развертывании Nutanix Files на однокластерном узле, очевидно, что существуют критические аспекты конфигурации, которые должны быть учтены, чтобы избежать ошибок. Опишем ключевые составляющие, рассмотрим возможные причины и предложим решения.
Теория:
Nutanix Files, как часть инфраструктуры Nutanix, позволяет реализовать функции распределенной файловой службы. Основная функция заключается в обеспечении высокодоступного и легко масштабируемого файлового хранилища. Однако для успешного развертывания необходимы корректные настройки сети и взаимодействия между компонентами системы.
Пример:
Вы развернули Nutanix на VMware ESXi 7 с конкретной конфигурацией оборудования: 16 CPU, 64GB RAM, и различными требованиями к дисковому пространству. Вы успешно получили доступ к Prism UI, что свидетельствует о базовой корректной конфигурации виртуальной среды.
Однако, при попытке развернуть Nutanix Files возникают проблемы, такие как застревание прогресса на уровне 50% и сбой с ошибкой: "Failed to reach FileServerVm NTNX-vmname-1 from Nutanix Controller Vm." Логи показывают различные сетевые проблемы и ошибки соединения, указывающие на сложности с достижением нужных узлов из CVM.
Ошибки в логе, такие как отсутствие маршрута к хосту, свидетельствуют о проблемах сетьевого взаимодействия между компонентами. Например, неспособность установить соединение с Zookeeper при помощи ноды, а также разрывы связи в Cassandra.
Применение:
-
Проверка конфигурации сети:
- Убедитесь, что все необходимые подсети и VLAN настроены правильно на вашем ESXi хосте и что все виртуальные свитчи имеют корректные правила маршрутизации.
- Проверьте настройки IP-адресов и масок подсетей для всех компонентов (CVM, AD, File Server).
- Выделите отдельные сети (или VLAN) для управления и потребительского трафика, что могло бы улучшить изоляцию и качество обслуживания.
-
Корректировка IP-маршрутизации:
- Определите возможность присутствия изолированных маршрутов или автоназначенных адресов, которые могут не быть видимы с других узлов.
- Используйте трассировку маршрута для диагностики и идентификации разрывов соединения.
-
Проверка статусу служб:
- Проверьте, что все службы на CVM, включая генезис и zookeeper, запущены корректно и могут взаимодействовать друг с другом.
- Проверьте соответствующие файлы лога на конкретные ошибки, касающиеся служб распределённого хранения (FSVM).
-
Анализ и обновление конфигурации безопасности:
- Убедитесь, что нет проблем с сетевой безопасностью или политики безопасности ESXi, которые могут блокировать трафик.
- Проверьте, нет ли на пути межсетевых экранов или других устройств, блокирующих связь между компонентами.
-
Переход к стандарту PKCS12:
- Следуя предупреждению о использовании устаревшего формата JKS, рассмотрите возможность перехода на стандарт PKCS12, что улучшит совместимость и безопасность.
Развёртывание Nutanix Files требует тщательной проверки каждого из указанных этапов из-за высоких требований к стабильности сети и конфигурации инфраструктуры. Уделение внимания этим аспектам поможет устранить проблемы и успешно завершить развертывание.