Вопрос или проблема
Я сейчас занимаюсь настройкой одноузловой рабочей станции Slurm
и полагаю, что точно следовал процессу, и всё работает нормально. Смотрите ниже:
sudo systemctl restart slurmdbd && sudo systemctl status slurmdbd
Loaded: loaded (/usr/lib/systemd/system/slurmdbd.service; enabled; preset: enabled)
Active: active (running) since Sun 2025-03-09 17:15:43 CET; 10ms ago
Docs: man:slurmdbd(8)
Main PID: 2597522 (slurmdbd)
Tasks: 1
Memory: 1.6M (peak: 1.8M)
CPU: 5ms
CGroup: /system.slice/slurmdbd.service
└─2597522 /usr/sbin/slurmdbd -D -s
Mar 09 17:15:43 NeoPC-mat systemd[1]: Started slurmdbd.service - Slurm DBD accounting daemon.
Mar 09 17:15:43 NeoPC-mat (slurmdbd)[2597522]: slurmdbd.service: Referenced but unset environment variable evaluates to an empty string: SLURMDBD_OPTIONS
Mar 09 17:15:43 NeoPC-mat slurmdbd[2597522]: slurmdbd: Not running as root. Can't drop supplementary groups
Mar 09 17:15:43 NeoPC-mat slurmdbd[2597522]: slurmdbd: accounting_storage/as_mysql: _check_mysql_concat_is_sane: MySQL server version is: 5.5.5-10.11.8-MariaDB-0ubuntu0.24.04.1
sudo systemctl restart slurmctld && sudo systemctl status slurmctld
● slurmctld.service - Slurm controller daemon
Loaded: loaded (/usr/lib/systemd/system/slurmctld.service; enabled; preset: enabled)
Active: active (running) since Sun 2025-03-09 17:15:52 CET; 11ms ago
Docs: man:slurmctld(8)
Main PID: 2597573 (slurmctld)
Tasks: 7
Memory: 1.8M (peak: 2.8M)
CPU: 4ms
CGroup: /system.slice/slurmctld.service
├─2597573 /usr/sbin/slurmctld --systemd
└─2597574 "slurmctld: slurmscriptd"
Mar 09 17:15:52 NeoPC-mat systemd[1]: Starting slurmctld.service - Slurm controller daemon...
Mar 09 17:15:52 NeoPC-mat (lurmctld)[2597573]: slurmctld.service: Referenced but unset environment variable evaluates to an empty string: SLURMCTLD_OPTIONS
Mar 09 17:15:52 NeoPC-mat slurmctld[2597573]: slurmctld: slurmctld version 23.11.4 started on cluster mat_workstation
Mar 09 17:15:52 NeoPC-mat systemd[1]: Started slurmctld.service - Slurm controller daemon.
Mar 09 17:15:52 NeoPC-mat slurmctld[2597573]: slurmctld: accounting_storage/slurmdbd: clusteracct_storage_p_register_ctld: Registering slurmctld at port 6817 with slurmdbd
sudo systemctl restart slurmd && sudo systemctl status
● slurmd.service - Slurm node daemon
Loaded: loaded (/usr/lib/systemd/system/slurmd.service; enabled; preset: enabled)
Active: active (running) since Sun 2025-03-09 17:16:02 CET; 9ms ago
Docs: man:slurmd(8)
Main PID: 2597629 (slurmd)
Tasks: 1
Memory: 1.5M (peak: 1.9M)
CPU: 13ms
CGroup: /system.slice/slurmd.service
└─2597629 /usr/sbin/slurmd --systemd
Mar 09 17:16:02 NeoPC-mat systemd[1]: Starting slurmd.service - Slurm node daemon...
Mar 09 17:16:02 NeoPC-mat (slurmd)[2597629]: slurmd.service: Referenced but unset environment variable evaluates to an empty string: SLURMD_OPTIONS
Mar 09 17:16:02 NeoPC-mat slurmd[2597629]: slurmd: slurmd version 23.11.4 started
Mar 09 17:16:02 NeoPC-mat slurmd[2597629]: slurmd: slurmd started on Sun, 09 Mar 2025 17:16:02 +0100
Mar 09 17:16:02 NeoPC-mat slurmd[2597629]: slurmd: CPUs=16 Boards=1 Sockets=1 Cores=8 Threads=2 Memory=128445 TmpDisk=575645 Uptime=2069190 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)
Mar 09 17:16:02 NeoPC-mat systemd[1]: Started slurmd.service - Slurm node daemon.
При необходимости, я могу приложить результаты для соответствующего journalctl
, но ошибок, кроме этих двух сообщений, не показывается
slurmd.service: Referenced but unset environment variable evaluates to an empty string: SLURMD_OPTIONS
и
slurmdbd: Not running as root. Can't drop supplementary groups
в journalctl -fu slurmd
и в journalctl -fu slurmdbd
, соответственно.
По какой-то причине я не могу запустить sinfo
в новой вкладке даже после установки ссылки на slurm.conf в моем .bashrc… вот что мне предлагается:
sinfo: error: Couldn’t find the specified plugin name for auth/munge
looking at all files sinfo: error: cannot find auth plugin for
auth/munge sinfo: error: cannot create auth context for auth/munge
sinfo: fatal: failed to initialize auth plugin
что, кажется, зависит от munge
, но я не совсем понимаю, от чего именно — это мой первый раз, когда я устанавливаю Slurm
. Любая помощь будет очень признательна, спасибо заранее!
Ответ или решение
Настройка системы управления рабочими очередями и ресурсами Slurm в одной узловой конфигурации может быть вызовом, особенно если это ваш первый опыт. Поскольку проблема связана с аутентификацией Munge, давайте подробно рассмотрим основные аспекты и решения.
Теория
Slurm — это передовая система управления задачами, которая используется для управления и планирования работы в кластерах. Она поддерживает различные плагины для реализации аутентификации. Наиболее распространенный и рекомендованный для большинства инсталляций плагин — это Munge (MUNge Uid ‘N’ Gid Emporium), который предоставляет безопасный и эффективный способ передачи информации о пользователе для аутентификации и идентификации в распределенных средах.
Основной ошибкой, описанной в вашем обращении, является "невозможность найти указанный плагин имени для auth/munge", что указывает на проблему с настройкой или работой Munge. Попробуем разобраться в причине этой ошибки и предложить пути ее решения.
Пример
На исходном этапе вашей конфигурации все основные службы Slurm запускаются корректно, судя по предоставленному статусу служб slurmdbd
, slurmctld
и slurmd
. Однако, вывод команд сообщает о незаданных переменных среды, а также о запуске slurmdbd
без root-привилегий, что может косвенно указывать на потенциально проблемные области. Тем не менее, ключевая проблема заключается в аутентификации Munge:
sinfo: error: Couldn't find the specified plugin name for auth/munge
sinfo: error: cannot find auth plugin for auth/munge
sinfo: error: cannot create auth context for auth/munge
sinfo: fatal: failed to initialize auth plugin
Эти сообщения указывают на проблему с загрузкой плагина аутентификации Munge. Такой результат может быть вызван несколькими факторами: отсутствием Munge на системе, неправильной конфигурацией, или проблемами с правами доступа.
Применение
-
Проверка установки Munge: Убедитесь, что Munge установлен на вашем устройстве. Это можно сделать с помощью команды:
dpkg -l | grep munge
или
rpm -qa | grep munge
Зависит от вашей системы управления пакетами. Если Munge не установлен, его необходимо установить.
-
Настройка Munge:
- Убедитесь, что на вашем устройстве есть файл ключа Munge. По умолчанию он расположен в
/etc/munge/munge.key
. Он должен быть одинаков на всех узлах. -
Проверьте права доступа к файлу. Убедитесь, что владелец — пользователь munge и права установлены на 400:
sudo chown munge:munge /etc/munge/munge.key sudo chmod 400 /etc/munge/munge.key
- Убедитесь, что на вашем устройстве есть файл ключа Munge. По умолчанию он расположен в
-
Старт и проверка статуса Munge:
-
Убедитесь, что служба Munge запущена и работает корректно:
sudo systemctl start munge sudo systemctl enable munge sudo systemctl status munge
-
-
Проверка логов:
-
Посмотрите логи Munge для получения более детальной информации о том, что может быть не так, выполнив команду:
journalctl -u munge
-
-
Соответствие версии и зависимости: Проверьте зависимости и версию Munge, чтобы исключить несовместимость компонентов. Иногда помогает полное обновление пакетов:
sudo apt update && sudo apt upgrade
-
Перезапуск Slurm демонов: Последний шаг после применения всех изменений — перезапуск всех необходимых служб Slurm:
sudo systemctl restart slurmctld sudo systemctl restart slurmd
Если данные шаги не решают проблему, стоит проверить конфигурационные файлы для НАСТРОЙКИ Slurm (slurm.conf
) на наличие ошибок или дополнительных параметров, которые могут влиять на работу Munge.
Также рекомендуется регулярно проверять официальные ресурсы Slurm и документацию Munge для получения новых рекомендаций и возможных исправлений известных ошибок.
При необходимости вносите дополнительные изменения в зависимости от специфики вашего окружения. В случае если проблема остается нерешенной, возможно, потребуется привлечение более детальной диагностики и консультации со специалистами, имеющими опыт работы с Slurm и Munge.