Протокол резервного кольца (RRP) не работает должным образом в Pacemaker.

Question

В настоящее время я планирую настроить кластер Active-Standby HA, используя два узла. У каждого узла есть два сетевых интерфейса, которые добавлены как 10.0.2.0 (ring0) и 192.168.0.0 (ring1). Для тестирования я отключил stonith и кворум.

Я обратился к следующей документации для Red Hat 8, чтобы добавить новую ссылку в кластер: https://docs.redhat.com/ko/documentation/red_hat_enterprise_linux/8/html/configuring_and_managing_high_availability_clusters/proc_changing-links-in-multiple-ip-cluster-clusternode-management#proc_changing-links-in-multiple-ip-cluster-clusternode-management

После добавления новой ссылки мой модифицированный corosync.conf выглядит следующим образом:

totem {
    version: 2
    cluster_name: gisang-cluster
    transport: knet
    crypto_cipher: aes256
    crypto_hash: sha256
}

nodelist {
    node {
        name: gisang-node01-hb
        nodeid: 1
        ring1_addr: 10.0.2.15
        ring0_addr: 192.168.0.101
    }

    node {
        name: gisang-node02-hb
        nodeid: 2
        ring1_addr: 10.0.2.23
        ring0_addr: 192.168.0.102
    }
}

quorum {
    provider: corosync_votequorum
    two_node: 1
}

logging {
    to_logfile: yes
    logfile: /var/log/corosync/corosync.log
    to_syslog: yes
    timestamp: on
}

Я подготовил три случая, чтобы проверить, правильно ли функционирует RRP.
Первый случай:

Запустить кластер с Node1 и Node2.
Выключить (отключить) сетевой интерфейс ring0 у любого из узлов Node1 или Node2.
Убедиться, что кластер продолжает работать.

Второй случай:

Запустить кластер с Node1 и Node2.
Выключить (отключить) сетевой интерфейс ring0 у любого из узлов Node1 или Node2.
Использовать команду pcs cluster sync, чтобы подтвердить, происходит ли общение через ring1.

Третий случай:

Кластер находится в остановленном состоянии.
Выключить (отключить) сетевой интерфейс ring0 у любого из узлов Node1 или Node2.
Запустить кластер с Node1 и Node2.

Результаты:

Первый случай:
Все прошло как я ожидал. Используя pcs status, я подтвердил, что ресурсы кластера функционируют правильно без каких-либо ошибок.

Второй случай:
Была отображена следующая ошибка. Хотя ring0 был отключен, я ожидал, что конфигурационная информация будет синхронизироваться через ring1, но это не сработало как было задумано.

  root@gisang-node01:/home# pcs cluster sync
  gisang-node01-hb: Succeeded
  Unable to connect to gisang-node02-hb, check if pcsd is running there or try setting higher timeout with --request-timeout option (Failed to connect to gisang-node02-hb port 2224 after 2180 ms: No route to host)
  Error: Unable to set corosync config: Unable to connect to gisang-node02-hb, check if pcsd is running there or try setting higher timeout with --request-timeout option (Failed to connect to gisang-node02-hb port 2224 after 2180 ms: No route to host)

Третий случай:
Кластер вообще не запустился. Я надеялся, что кластер запустится через ring1, даже если ring0 был отключен.

  root@gisang-node01:/home# pcs cluster start --all
  gisang-node01-hb: Starting Cluster...
  gisang-node02-hb: Unable to connect to gisang-node02-hb, check if pcsd is running there or try setting higher timeout with --request-timeout option (Failed to connect to gisang-node02-hb port 2224 after 38661 ms: No route to host)
  Error: unable to start all nodes
  gisang-node02-hb: Unable to connect to gisang-node02-hb, check if pcsd is running there or try setting higher timeout with --request-timeout option (Failed to connect to gisang-node02-hb port 2224 after 38661 ms: No route to host)

Почему RRP не работает как ожидалось, и как я могу решить эту проблему? Или я неправильно понимаю функциональность RRP и подхожу к этому неверно?

Протокол резервного кольца (RRP) не работает должным образом в Pacemaker.

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Почему RRP не работает как ожидалось?

Заключение