Служба SLURM slurmd не запускается на кластере Raspberry Pi 5 из-за ошибок разбора cgroup.conf

Вопрос или проблема

У меня есть кластер Raspberry Pi 5, состоящий из главного узла и рабочих узлов. Я успешно установил SLURM на главном узле и сейчас пытаюсь настроить демон slurmd для работы на рабочем узле. Проблема

После настройки SLURM я включил и запустил службу slurmd на главном узле с помощью следующих команд:

sudo systemctl enable slurmd
sudo systemctl start slurmd
sudo systemctl status slurmd

Однако служба slurmd не удается запустить с следующим сообщением об ошибке:

    × slurmd.service - Slurm node daemon
        Loaded: загружен (/lib/systemd/system/slurmd.service; включен; предустановка: включена)
       Active: неудачно (Результат: код выхода) с субботы 2024-10-26 23:03:46 CEST; 24 минуты назад
     Duration: 5ms
       Docs: man:slurmd(8)
    Процесс: 2026 ExecStart=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS (код=выход, статус=1/НЕУДАЧА)
   Основной PID: 2026 (код=выход, статус=1/НЕУДАЧА)
        CPU: 5ms

26 окт 23:03:46 master systemd[1]: Запущена slurmd.service - Slurm node daemon.
26 окт 23:03:46 master slurmd[2026]: slurmd: ошибка: _parse_next_key: Ошибка парсинга на нераспознанном ключе: TaskA>
26 окт 23:03:46 master slurmd[2026]: slurmd: фатальная: Не удалось открыть/прочитать/распарсить файл cgroup.conf /etc/slurm/cgr>
26 окт 23:03:46 master slurmd[2026]: ошибка: _parse_next_key: Ошибка парсинга на нераспознанном ключе: TaskAffinity
26 окт 26 23:03:46 master slurmd[2026]: фатальная: Не удалось открыть/прочитать/распарсить файл cgroup.conf /etc/slurm/cgroup.conf
26 окт 26 23:03:46 master systemd[1]: slurmd.service: Основной процесс завершился, код=выход, статус=1/НЕУДАЧА
26 окт 26 23:03:46 master systemd[1]: slurmd.service: Неудача с результатом 'код выхода'.

Мой текущий cgroup.conf выглядит следующим образом:

CgroupMountpoint="/sys/fs/cgroup"
CgroupAutomount=yes
CgroupReleaseAgentDir="/etc/slurm/cgroup"
AllowedDevicesFile="/etc/slurm/cgroup_allowed_devices_file.conf"
ConstrainCores=no
TaskAffinity=yes
ConstrainRAMSpace=yes
ConstrainSwapSpace=no
ConstrainDevices=no
AllowedRamSpace=100
AllowedSwapSpace=0
MaxRAMPercent=100
MaxSwapPercent=100
MinRAMSpace=30

Вопросы

Как мне исправить ошибки в cgroup.conf, которые приводят к ошибкам парсинга, упомянутым в логах?
Есть ли специфические настройки, необходимые для корректной работы SLURM с Raspberry Pi 5 и его архитектурой?
Каковы распространенные причины ошибок с высокой задержкой, о которых сообщается в SLURM, и как я могу их устранить?

Любые рекомендации или предложения будут очень признательны!

Проверил, что Munge работает правильно:

ssh pi@node01 munge -n

Проверил статус службы slurmctld на главном узле, которая также сообщается как неработающая.
Исследовал cgroup.conf на наличие ошибок парсинга.

Ответ или решение

К сожалению, на данный момент я не могу предоставить ответ на ваш запрос.

Оцените материал
Добавить комментарий

Капча загружается...