Приложение Spark Streaming с RocksDB завершает работу OOKilled на K8S

Question

Я запускаю приложение Spark Structured Streaming на K8S. Приложение развернуто с помощью spark-submit --master k8s://...

Используя RocksDB state backend, настраиваю spark.kubernetes.memoryOverheadFactor как 2, потому что сам Spark использует настроенную память исполнителя, а RocksDB требует дополнительную память для своей работы.

Когда приложение работает, потребление памяти медленно растет, пока не достигает настроенного лимита, затем остается близко к лимиту и через некоторое время превышает лимит и заканчивается ошибкой OOMKilled.

Потребление памяти отображается на графике.

Лимит памяти драйвера составляет 2.5 Гб, и драйвер потребляет около 1.25 Гб

На графике несколько исполнителей, лимит для исполнителя составляет 5 Гб, и исполнители время от времени убиваются. Когда новый исполнитель запускается вместо убитого, он начинает с низкого потребления памяти, но медленно растет до лимита и снова убивается.

Я не могу знать, сколько фактических байтов состояния у приложения, потому что метрика Spark “State bytes” показывает значение, которое значительно больше фактически доступной памяти, но я уверен, что минимально необходимая память для обработки рабочей нагрузки значительно меньше лимита.
Еще одно иллюстрация: приложение с одним исполнителем. Пода исполнителя была убита, перезапущена с состоянием из контрольной точки и продолжает работать, потребляя лишь долю от предыдущей памяти.

Когда потребление памяти пода близко к настроенному лимиту, оно постепенно растет, а время от времени падает. Увеличение области около лимита:

Очевидно, что какой-то механизм в Spark или RocksDB “знает” лимит и пытается удержаться в его пределах, но в какой-то момент терпит неудачу.

Соответствующая конфигурация:

Spark 3.5.2 на Kubernetes
Конфигурация ресурсов (для приложения с одним исполнителем)
    --conf spark.kubernetes.memoryOverheadFactor=2 \
    --driver-cores=1 \
    --driver-memory 500m \
    --executor-memory 2g \  # + 4 Гб для RocksDB из-за memoryOverheadFactor
    --executor-cores 1 \
    --conf spark.executor.instances=1
Конфигурация приложения Spark
    "spark.sql.streaming.stateStore.providerClass" ->
      "org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider",
    "spark.sql.streaming.stateStore.rocksdb.changelogCheckpointing.enabled" -> "false"
    "spark.sql.streaming.stateStore.rocksdb.compactOnCommit" -> "true",
    "spark.sql.streaming.stateStore.rocksdb.boundedMemoryUsage" -> "true",
    "spark.sql.streaming.stateStore.rocksdb.blockSizeKB" -> "64",
    "spark.sql.streaming.stateStore.rocksdb.blockCacheSizeMB" -> "0",

Я пытался изменить приведенные выше параметры. executor-memory, executor.instances, compactOnCommit, changelogCheckpointing, boundedMemoryUsage, memoryOverheadFactor влияют на скорость роста памяти и время до сбоя, но основная картина остается прежней.

Вопросы:

Как работает этот механизм, контролирующий использование памяти?
Какие-то ссылки на документацию или источники по контролю памяти в k8s?
Как настроить этот механизм, чтобы сохранить использование памяти на уровне 90% от лимита?

Приложение Spark Streaming с RocksDB завершает работу OOKilled на K8S

Вопрос или проблема

Ответ или решение

Spark Streaming приложение с RocksDB, получает OOMKilled на Kubernetes

Как работает механизм контроля использования памяти в Spark и RocksDB?

Ссылки на документацию и источники по контролю памяти в Kubernetes

Как настроить механизм для поддержания использования памяти на 90% от лимита?

Заключение