Проблемы в виртуальных машинах OpenStack после включения Ceph PWL

Содержание

Вопрос или проблема
Ответ или решение
Теория
Примеры
Применение

Вопрос или проблема

У нас есть кластер OpenStack с кластером Ceph в качестве хранилища. Мы включили ceph PWL (Persistent Write Log Cache) в нашем кластере Ceph. После этого наши виртуальные машины работают нормально до тех пор, пока сервер вычислений OpenStack не начнет отключаться (из-за сбоя питания), после чего виртуальные машины переходят в состояние ошибки. В журнале nova-compute содержится следующая запись:

Терминал вызван после выброса экземпляра ‘ceph::buffer::v15_2_0::end_of_buffer’

Изображение журнала ошибок

У кого-нибудь есть идеи, как решить эту проблему?

Спасибо!

Ответ или решение

Ваша проблема с виртуальными машинами OpenStack, возникающая после включения Ceph PWL (Persistent Write Log Cache), указывает на сложное взаимодействие различных компонентов вашей инфраструктуры. Давайте рассмотрим теорию, приведем примеры и предложим решения вашей проблемы.

Теория

Ceph — это популярная распределенная система хранения, широко используемая в OpenStack для обеспечения надежного и масштабируемого хранения данных. Один из механизмов оптимизации в Ceph — это PWL, который улучшает производительность за счет агрегации операций записи, снижая тем самым латентность. Однако, в вашем случае, после включения Ceph PWL, возникает ошибка в виртуальных машинах после выключения сервера OpenStack compute, что приводит к критическому состоянию.

Вызов исключения ceph::buffer::v15_2_0::end_of_buffer может указывать на проблемы с чтением данных из буфера, вероятно, из-за их повреждения или неожиданного окончания.

Примеры

Такие проблемы обычно возникают в следующих ситуациях:

Неправильная синхронизация данных: при внезапном выключении узла OpenStack compute данные могут не полностью синхронизироваться с кластером Ceph, особенно если установка PWL была сделана неправильно или содержит баги.
Конфликт версий: использование несовместимых или устаревших версий Ceph и OpenStack может вызвать ошибки в обработке специфичных функций, таких как PWL.
Нарушения транзакционных свойств: если данные кэшируются для записи, но не успевают попасть в main store при отключении, это может повредить целостность данных.

Применение

Для решения вашей проблемы, рекомендую следующую последовательность действий:

Проверка конфигурации Ceph и OpenStack: убедитесь, что все версии программного обеспечения совместимы друг с другом. Ознакомьтесь с релиз-нотами и документацией, возможно, ваша версия OpenStack или Ceph имеет известные баги.
Логирование и мониторинг: соберите полные логи nova-compute, cinder-volume и самого кластера Ceph. Это поможет более точно определить причину ошибки и выявить место возникновения сбоя.
Обновление и патчи: если версия вашего Ceph имеет известные проблемы с PWL, проверьте наличие обновлений или патчей, которые исправляют данные баги. Это может ликвидировать проблему с точки зрения устойчивости и совместимости системы.
Проверка конфигурации PWL: убедитесь, что все параметры конфигурации Ceph настроены корректно, особенно относящиеся к журналированию и кэшированию. Неправильные параметры могут привести к небезопасным условиям сохранения данных.
Тестирование восстановления: настройте и протестируйте процесс аварийного восстановления, чтобы убедиться, что ваше решение будет устойчиво к внезапным сбоям. Попробуйте симулировать отключения и наблюдайте за журналированием.
Обратитесь к сообществу или службам поддержки: откройте обсуждение на форумах сообщества OpenStack и Ceph, чтобы определить, сталкивались ли другие с подобными проблемами и какие решения были предложены.
Миграция на альтернативные конфигурации: если ни одно из вышеуказанных решений не помогает, рассмотрите возможность отключения PWL, чтобы оценить изменение в стабильности. Иногда является целесообразным изменение конфигурации на менее оптимизированную, но более надежную с точки зрения доступности и устойчивости решений.

Соответствующий анализ и строгие тестирования помогут в установке надежной и устойчивой системы. Задачи такого уровня сложности могут требовать углубленных знаний о внутреннем устройстве как OpenStack, так и Ceph, поэтому не стесняйтесь привлекать к решению подобных вопросов более широкий круг специалистов или консультантов.