Одиночная узловая машина Slurm, проблема аутентификации munge

Вопрос или проблема

Я сейчас занимаюсь настройкой одноузловой рабочей станции Slurm и полагаю, что точно следовал процессу, и всё работает нормально. Смотрите ниже:

sudo systemctl restart slurmdbd && sudo systemctl status slurmdbd

     Loaded: loaded (/usr/lib/systemd/system/slurmdbd.service; enabled; preset: enabled)
     Active: active (running) since Sun 2025-03-09 17:15:43 CET; 10ms ago
       Docs: man:slurmdbd(8)
   Main PID: 2597522 (slurmdbd)
      Tasks: 1
     Memory: 1.6M (peak: 1.8M)
        CPU: 5ms
     CGroup: /system.slice/slurmdbd.service
             └─2597522 /usr/sbin/slurmdbd -D -s

Mar 09 17:15:43 NeoPC-mat systemd[1]: Started slurmdbd.service - Slurm DBD accounting daemon.
Mar 09 17:15:43 NeoPC-mat (slurmdbd)[2597522]: slurmdbd.service: Referenced but unset environment variable evaluates to an empty string: SLURMDBD_OPTIONS
Mar 09 17:15:43 NeoPC-mat slurmdbd[2597522]: slurmdbd: Not running as root. Can't drop supplementary groups
Mar 09 17:15:43 NeoPC-mat slurmdbd[2597522]: slurmdbd: accounting_storage/as_mysql: _check_mysql_concat_is_sane: MySQL server version is: 5.5.5-10.11.8-MariaDB-0ubuntu0.24.04.1

sudo systemctl restart slurmctld && sudo systemctl status slurmctld

● slurmctld.service - Slurm controller daemon
     Loaded: loaded (/usr/lib/systemd/system/slurmctld.service; enabled; preset: enabled)
     Active: active (running) since Sun 2025-03-09 17:15:52 CET; 11ms ago
       Docs: man:slurmctld(8)
   Main PID: 2597573 (slurmctld)
      Tasks: 7
     Memory: 1.8M (peak: 2.8M)
        CPU: 4ms
     CGroup: /system.slice/slurmctld.service
             ├─2597573 /usr/sbin/slurmctld --systemd
             └─2597574 "slurmctld: slurmscriptd"

Mar 09 17:15:52 NeoPC-mat systemd[1]: Starting slurmctld.service - Slurm controller daemon...
Mar 09 17:15:52 NeoPC-mat (lurmctld)[2597573]: slurmctld.service: Referenced but unset environment variable evaluates to an empty string: SLURMCTLD_OPTIONS
Mar 09 17:15:52 NeoPC-mat slurmctld[2597573]: slurmctld: slurmctld version 23.11.4 started on cluster mat_workstation
Mar 09 17:15:52 NeoPC-mat systemd[1]: Started slurmctld.service - Slurm controller daemon.
Mar 09 17:15:52 NeoPC-mat slurmctld[2597573]: slurmctld: accounting_storage/slurmdbd: clusteracct_storage_p_register_ctld: Registering slurmctld at port 6817 with slurmdbd

sudo systemctl restart slurmd && sudo systemctl status

● slurmd.service - Slurm node daemon
     Loaded: loaded (/usr/lib/systemd/system/slurmd.service; enabled; preset: enabled)
     Active: active (running) since Sun 2025-03-09 17:16:02 CET; 9ms ago
       Docs: man:slurmd(8)
   Main PID: 2597629 (slurmd)
      Tasks: 1
     Memory: 1.5M (peak: 1.9M)
        CPU: 13ms
     CGroup: /system.slice/slurmd.service
             └─2597629 /usr/sbin/slurmd --systemd

Mar 09 17:16:02 NeoPC-mat systemd[1]: Starting slurmd.service - Slurm node daemon...
Mar 09 17:16:02 NeoPC-mat (slurmd)[2597629]: slurmd.service: Referenced but unset environment variable evaluates to an empty string: SLURMD_OPTIONS
Mar 09 17:16:02 NeoPC-mat slurmd[2597629]: slurmd: slurmd version 23.11.4 started
Mar 09 17:16:02 NeoPC-mat slurmd[2597629]: slurmd: slurmd started on Sun, 09 Mar 2025 17:16:02 +0100
Mar 09 17:16:02 NeoPC-mat slurmd[2597629]: slurmd: CPUs=16 Boards=1 Sockets=1 Cores=8 Threads=2 Memory=128445 TmpDisk=575645 Uptime=2069190 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)
Mar 09 17:16:02 NeoPC-mat systemd[1]: Started slurmd.service - Slurm node daemon.

При необходимости, я могу приложить результаты для соответствующего journalctl, но ошибок, кроме этих двух сообщений, не показывается

slurmd.service: Referenced but unset environment variable evaluates to an empty string: SLURMD_OPTIONS
и
slurmdbd: Not running as root. Can't drop supplementary groups в journalctl -fu slurmd и в journalctl -fu slurmdbd, соответственно.

По какой-то причине я не могу запустить sinfo в новой вкладке даже после установки ссылки на slurm.conf в моем .bashrc… вот что мне предлагается:

sinfo: error: Couldn’t find the specified plugin name for auth/munge
looking at all files sinfo: error: cannot find auth plugin for
auth/munge sinfo: error: cannot create auth context for auth/munge
sinfo: fatal: failed to initialize auth plugin

что, кажется, зависит от munge, но я не совсем понимаю, от чего именно — это мой первый раз, когда я устанавливаю Slurm. Любая помощь будет очень признательна, спасибо заранее!

Ответ или решение

Настройка системы управления рабочими очередями и ресурсами Slurm в одной узловой конфигурации может быть вызовом, особенно если это ваш первый опыт. Поскольку проблема связана с аутентификацией Munge, давайте подробно рассмотрим основные аспекты и решения.

Теория

Slurm — это передовая система управления задачами, которая используется для управления и планирования работы в кластерах. Она поддерживает различные плагины для реализации аутентификации. Наиболее распространенный и рекомендованный для большинства инсталляций плагин — это Munge (MUNge Uid ‘N’ Gid Emporium), который предоставляет безопасный и эффективный способ передачи информации о пользователе для аутентификации и идентификации в распределенных средах.

Основной ошибкой, описанной в вашем обращении, является "невозможность найти указанный плагин имени для auth/munge", что указывает на проблему с настройкой или работой Munge. Попробуем разобраться в причине этой ошибки и предложить пути ее решения.

Пример

На исходном этапе вашей конфигурации все основные службы Slurm запускаются корректно, судя по предоставленному статусу служб slurmdbd, slurmctld и slurmd. Однако, вывод команд сообщает о незаданных переменных среды, а также о запуске slurmdbd без root-привилегий, что может косвенно указывать на потенциально проблемные области. Тем не менее, ключевая проблема заключается в аутентификации Munge:

sinfo: error: Couldn't find the specified plugin name for auth/munge
sinfo: error: cannot find auth plugin for auth/munge
sinfo: error: cannot create auth context for auth/munge
sinfo: fatal: failed to initialize auth plugin

Эти сообщения указывают на проблему с загрузкой плагина аутентификации Munge. Такой результат может быть вызван несколькими факторами: отсутствием Munge на системе, неправильной конфигурацией, или проблемами с правами доступа.

Применение

  1. Проверка установки Munge: Убедитесь, что Munge установлен на вашем устройстве. Это можно сделать с помощью команды:

    dpkg -l | grep munge

    или

    rpm -qa | grep munge

    Зависит от вашей системы управления пакетами. Если Munge не установлен, его необходимо установить.

  2. Настройка Munge:

    • Убедитесь, что на вашем устройстве есть файл ключа Munge. По умолчанию он расположен в /etc/munge/munge.key. Он должен быть одинаков на всех узлах.
    • Проверьте права доступа к файлу. Убедитесь, что владелец — пользователь munge и права установлены на 400:

      sudo chown munge:munge /etc/munge/munge.key
      sudo chmod 400 /etc/munge/munge.key
  3. Старт и проверка статуса Munge:

    • Убедитесь, что служба Munge запущена и работает корректно:

      sudo systemctl start munge
      sudo systemctl enable munge
      sudo systemctl status munge
  4. Проверка логов:

    • Посмотрите логи Munge для получения более детальной информации о том, что может быть не так, выполнив команду:

      journalctl -u munge
  5. Соответствие версии и зависимости: Проверьте зависимости и версию Munge, чтобы исключить несовместимость компонентов. Иногда помогает полное обновление пакетов:

    sudo apt update && sudo apt upgrade
  6. Перезапуск Slurm демонов: Последний шаг после применения всех изменений — перезапуск всех необходимых служб Slurm:

    sudo systemctl restart slurmctld
    sudo systemctl restart slurmd

Если данные шаги не решают проблему, стоит проверить конфигурационные файлы для НАСТРОЙКИ Slurm (slurm.conf) на наличие ошибок или дополнительных параметров, которые могут влиять на работу Munge.

Также рекомендуется регулярно проверять официальные ресурсы Slurm и документацию Munge для получения новых рекомендаций и возможных исправлений известных ошибок.

При необходимости вносите дополнительные изменения в зависимости от специфики вашего окружения. В случае если проблема остается нерешенной, возможно, потребуется привлечение более детальной диагностики и консультации со специалистами, имеющими опыт работы с Slurm и Munge.

Оцените материал
Добавить комментарий

Капча загружается...