Вопрос или проблема
У меня есть кластер Raspberry Pi 5, состоящий из главного узла и рабочих узлов. Я успешно установил SLURM на главном узле и сейчас пытаюсь настроить демон slurmd для работы на рабочем узле. Проблема
После настройки SLURM я включил и запустил службу slurmd на главном узле с помощью следующих команд:
sudo systemctl enable slurmd
sudo systemctl start slurmd
sudo systemctl status slurmd
Однако служба slurmd не удается запустить с следующим сообщением об ошибке:
× slurmd.service - Slurm node daemon
Loaded: загружен (/lib/systemd/system/slurmd.service; включен; предустановка: включена)
Active: неудачно (Результат: код выхода) с субботы 2024-10-26 23:03:46 CEST; 24 минуты назад
Duration: 5ms
Docs: man:slurmd(8)
Процесс: 2026 ExecStart=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS (код=выход, статус=1/НЕУДАЧА)
Основной PID: 2026 (код=выход, статус=1/НЕУДАЧА)
CPU: 5ms
26 окт 23:03:46 master systemd[1]: Запущена slurmd.service - Slurm node daemon.
26 окт 23:03:46 master slurmd[2026]: slurmd: ошибка: _parse_next_key: Ошибка парсинга на нераспознанном ключе: TaskA>
26 окт 23:03:46 master slurmd[2026]: slurmd: фатальная: Не удалось открыть/прочитать/распарсить файл cgroup.conf /etc/slurm/cgr>
26 окт 23:03:46 master slurmd[2026]: ошибка: _parse_next_key: Ошибка парсинга на нераспознанном ключе: TaskAffinity
26 окт 26 23:03:46 master slurmd[2026]: фатальная: Не удалось открыть/прочитать/распарсить файл cgroup.conf /etc/slurm/cgroup.conf
26 окт 26 23:03:46 master systemd[1]: slurmd.service: Основной процесс завершился, код=выход, статус=1/НЕУДАЧА
26 окт 26 23:03:46 master systemd[1]: slurmd.service: Неудача с результатом 'код выхода'.
Мой текущий cgroup.conf выглядит следующим образом:
CgroupMountpoint="/sys/fs/cgroup"
CgroupAutomount=yes
CgroupReleaseAgentDir="/etc/slurm/cgroup"
AllowedDevicesFile="/etc/slurm/cgroup_allowed_devices_file.conf"
ConstrainCores=no
TaskAffinity=yes
ConstrainRAMSpace=yes
ConstrainSwapSpace=no
ConstrainDevices=no
AllowedRamSpace=100
AllowedSwapSpace=0
MaxRAMPercent=100
MaxSwapPercent=100
MinRAMSpace=30
Вопросы
Как мне исправить ошибки в cgroup.conf, которые приводят к ошибкам парсинга, упомянутым в логах?
Есть ли специфические настройки, необходимые для корректной работы SLURM с Raspberry Pi 5 и его архитектурой?
Каковы распространенные причины ошибок с высокой задержкой, о которых сообщается в SLURM, и как я могу их устранить?
Любые рекомендации или предложения будут очень признательны!
Проверил, что Munge работает правильно:
ssh pi@node01 munge -n
Проверил статус службы slurmctld на главном узле, которая также сообщается как неработающая.
Исследовал cgroup.conf на наличие ошибок парсинга.
Ответ или решение
К сожалению, на данный момент я не могу предоставить ответ на ваш запрос.