Данные мастера кластера ElasticSearch удалены

Содержание

Вопрос или проблема
Ответ или решение
Вопрос: Будет ли работать кластер Elasticsearch после полного остановки и перезапуска, если один из мастер-узлов был заменен?
Описание ситуации
Анализ ситуации
Заключение

Вопрос или проблема

У меня есть кластер Elastic, работающий на Kubernetes с 3 мастер-узлами (2 с постоянным хранилищем и 1 узел, только голосующий, без постоянного хранилища) и 20 узлами данных. Я случайно удалил данные на одном из мастер-узлов с постоянным хранилищем, но я успешно снова подключил мастер-узел к кластеру, используя то же имя, хотя с новым UUID, который был сгенерирован. Кластер работал нормально в течение нескольких недель.

Тем не менее, мой вопрос: будет ли он продолжать работать после полного остановки и перезапуска кластера? Или потребуется оригинальный мастер UUID из начального бутстрапа?

Спасибо.

Я не был в такой ситуации, но, насколько я знаю, перезапуск кластера должен быть в порядке. В качестве окончательного подтверждения я бы проверил здоровье кластера и его состояние.

GET /_cluster/health
GET /_cluster/state

Если здоровье кластера стабильно, и старый UUID был удален из состояния, перезапуск всего кластера должен пройти без проблем. Кластер снова выберет мастера и распознает текущие узлы.

При настройках по умолчанию для discovery.zen.fd.ping_interval (1s), discovery.zen.fd.ping_timeout (30s) и discovery.zen.fd.ping_retries (3) должно пройти менее двух минут, чтобы мастер-узел был помечен как failed, а через некоторое время (в течение минут) полностью удален из состояния.

Вы сказали, что сделали это несколько недель назад. Старый UUID должен быть давно удален, но это зависит от конфигурации Zen discovery. Поэтому лучше подтвердить состояние кластера перед перезапуском.

Ответ или решение

Вопрос: Будет ли работать кластер Elasticsearch после полного остановки и перезапуска, если один из мастер-узлов был заменен?

Ваша ситуация с кластером Elasticsearch вызывает естественное беспокойство, особенно после случайного удаления данных на одном из мастер-узлов. Прежде всего, важно понимать структуры и механизмы работы самого кластера Elasticsearch, чтобы оценить потенциальные риски и последствия, связанные с перезапуском после замены узла.

Описание ситуации

У вас есть кластер Elasticsearch с тремя мастер-узлами (два из которых имеют постоянное хранилище и один узел только для голосования без постоянного хранилища) и двадцатью узлами для хранения данных. Вы случайно удалили данные на одном из мастер-узлов с постоянным хранилищем, после чего успешно вернули этот мастер-узел в кластер под тем же именем, но с новым UUID, который был сгенерирован.

На данный момент кластер функционирует нормально. Теперь ваш главный вопрос заключается в том, будет ли кластер продолжать работать после полного перезапуска, или потребуется оригинальный UUID мастер-узла для успешной перезагрузки.

Анализ ситуации

Механизм выбора мастера: Elasticsearch использует механизм выборов для определения мастер-узла. Если вы восстановили мастер-узел и он продолжает работать без проблем, это свидетельствует о том, что кластер адаптировался к изменениям, включая обновленный UUID.
UUID и состояние кластера: После того как мастер-узел, присоединившись к кластеру, сгенерировал новый UUID, оригинальный идентификатор данного узла больше не сохраняется в состоянии кластера. Это значит, что, если ваша кластерная система функционирует несколько недель без проблем, то старая информация о UUID была, скорее всего, удалена из памяти состояния кластера.
Подготовка к перезапуску: Прежде чем осуществлять полный перезапуск кластера, разумно выполнить проверку состояния. Используйте следующие команды для оценки текущего состояния кластера:
```
GET /_cluster/health
GET /_cluster/state
```
Эти команды позволят удостовериться в том, что здоровье кластера стабильно и что узлы работают как ожидалось. Если результаты покажут, что все узлы остаются в статусе green или yellow, это указывает на то, что отсутствие старого UUID не создает сейчас никаких опасностей для функционирования.
Общие рекомендации:
- Если вы видите, что кластер стабилен, а старый UUID отсутствует, перезапуск кластера можно выполнить без значительного риска.
- Важно следить за настройками ненадежного обнаружения (например, discovery.zen.fd.ping_interval, discovery.zen.fd.ping_timeout, и discovery.zen.fd.ping_retries), которые помогут контролировать время, необходимое для пометки неактивных узлов.

Заключение

Ваша текущая ситуация должна позволить безопасно перезапустить кластер без необходимости возвращения к старому UUID. Однако, повторная проверка состояния перед выполнением перезапуска – это всегда хорошая практика. Все показатели стабильного состояния будут свидетельствовать о том, что кластер продолжает функционировать, как прежде. Если в процессе перезапуска возникнут какие-либо проблемы, они могут возникнуть из-за других несопоставленных факторов, которые не связаны с изменением UUID.

Благодарю вас за обращение с вопросом, и если у вас есть дополнительные вопросы или необходима дальнейшая помощь, пожалуйста, не стесняйтесь обращаться.