Вопрос или проблема
Всем.
Я новый пользователь Slurm, который хочет установить его на своем ноутбуке с Ubuntu, чтобы использовать команду qsub: (https://www.mcs.anl.gov/petsc/petsc-3.7-atpesc2016/tutorials/HandsOnExercise.html, пожалуйста, посмотрите примеры.)
Я установил Slurm, следуя этому: https://wiki.alcidesfonseca.com/blog/setting-up-slurm-for-single-node-usage-in-ubuntu-2204/ и изменил некоторые имена хостов и параметры в /etc/slurm/gres.conf (прилагается) согласно помощнику Google.
$ sudo systemctl start slurmctld
$ sinfo –Node –long Пн Сент 16 00:58:46 2024 NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON
localhost 1 LocalQ* неизвестно* 96 2:24:2 128580 0 1 (null) none
Я отправил задачи, используя sbatch –wrap “-t 10 -q training -A saumya –mode c16 ./ex2 -ts_max_steps 10 -ts_monitor”
Вот как выглядит очередь: ‘$ squeue -u saumya JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 LocalQ wrap saumya PD 0:00 1 (Необходимые ноды для задания отключены, дренированы или зар reservированы для заданий в более высокоприоритетных разделах) 2 LocalQ wrap saumya PD 0:00 1 (ReqNodeNotAvail, UnavailableNodes:localhost) 3 LocalQ wrap saumya PD 0:00 1 (ReqNodeNotAvail, UnavailableNodes:localhost)
$ journalctl -u slurmctld
прилагается как journal.txt
$ sudo scontrol update nodename=saumya_TP_GPU state=resume slurm_update ошибка: указан неверный статус узла
$ scontrol reconfigure slurm_reconfigure ошибка: неверный идентификатор пользователя
Как я могу устранить неполадки?
Saumya
Я попытался устранить неполадки, исходя из логов. Я не могу определить, в чем проблема.
13 сентября 07:32:27 saumya-TP-GPU systemd[1]: Проверка условия привела к тому, что демон контроллера Slurm был пропущен. 15 сентября 04:25:55 saumya-TP-GPU systemd[1]: Демон контроллера Slurm запущен. 15 сентября 04:25:55 saumya-TP-GPU slurmctld[201981]: slurmctld: Нет параметров для плагина mcs, установлены значения по умолчанию 15 сентября 04:25:55 saumya-TP-GPU slurmctld[201981]: slurmctld: mcs: MCSParameters = (null). ondemand установлен. 15 сентября 04:26:55 saumya-TP-GPU slurmctld[201981]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched_min_interval=2 15 сентября 04:30:55 saumya-TP-GPU slurmctld[201981]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 04:42:09 saumya-TP-GPU slurmctld[201981]: slurmctld: Получен сигнал прекращения (SIGINT или SIGTERM) 15 сентября 04:42:09 saumya-TP-GPU systemd[1]: Остановка демона контроллера Slurm… 15 сентября 04:42:09 saumya-TP-GPU systemd[1]: slurmctld.service: Успешно деактивирован. 15 сентября 04:42:09 saumya-TP-GPU systemd[1]: Демон контроллера Slurm остановлен. 15 сентября 04:52:08 saumya-TP-GPU systemd[1]: Демон контроллера Slurm запущен. 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Восстановлено состояние 1 узлов 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Восстановлена информация о 0 задачах 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres/gpu: состояние для localhost 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_cnt найден:TBD настроен:2 доступно:2 выделено:0 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_bit_alloc:NULL 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_used:(null) 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres/mps: состояние для localhost 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_cnt найден:TBD настроен:200 доступно:200 выделено:0 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_bit_alloc:NULL 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_used:(null) 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Восстановлено состояние 0 резервирований 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: read_slurm_conf: backup_controller не указан 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: select_p_reconfigure: select/cons_tres: перенастройка 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Работает как основной контроллер 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Нет параметров для плагина mcs, установлены значения по умолчанию 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: mcs: MCSParameters = (null). ondemand установлен. 15 сентября 04:53:08 saumya-TP-GPU slurmctld[205109]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched_min_interval=2 15 сентября 04:55:49 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=1 rc=-1 15 сентября 04:55:49 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=1 rc=0 15 сентября 04:55:49 saumya-TP-GPU slurmctld[205109]: slurmctld: _slurm_rpc_submit_batch_job: JobId=1 InitPrio=4294901759 usec=607 15 сентября 04:57:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:02:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:07:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:12:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:17:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:22:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:27:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:29:05 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=2 rc=-1 15 сентября 05:29:05 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=2 rc=0 15 сентября 05:29:05 saumya-TP-GPU slurmctld[205109]: slurmctld: _slurm_rpc_submit_batch_job: JobId=2 InitPrio=4294901758 usec=573 15 сентября 05:30:09 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=3 rc=-1 15 сентября 05:30:09 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=3 rc=0 15 сентября 05:30:09 saumya-TP-GPU slurmctld[205109]: slurmctld: _slurm_rpc_submit_batch_job: JobId=3 InitPrio=4294901757 usec=795 15 сентября 05:32:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:37:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:37:33 saumya-TP-GPU slurmctld[205109]: slurmctld: Получен сигнал прекращения (SIGINT или SIGTERM) 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: Остановка демона контроллера Slurm… 15 сентября 05:37:33 saumya-TP-GPU slurmctld[205109]: slurmctld: Сохранение всего состояния slurm 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: slurmctld.service: Успешно деактивирован. 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: Демон контроллера Slurm остановлен. 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: slurmctld.service: Использовано 1.649s времени ЦП. 15 сентября 05:40:23 saumya-TP-GPU systemd[1]: Демон контроллера Slurm запущен. 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлено состояние 1 узлов 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлен JobId=1 Assoc=0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлен JobId=2 Assoc=0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлен JobId=3 Assoc=0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлена информация о 3 задачах 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres/gpu: состояние для localhost 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_cnt найден:TBD настроен:2 доступно:2 выделено:0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_bit_alloc:NULL 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_used:(null) 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres/mps: состояние для localhost 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_cnt найден:TBD настроен:200 доступно:200 выделено:0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_bit_alloc:NULL 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_used:(null) 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлено состояние 0 резервирований 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: read_slurm_conf: backup_controller не указан 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: select_p_reconfigure: select/cons_tres: перенастройка 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Работает как основной контроллер 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Нет параметров для плагина mcs, установлены значения по умолчанию 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: mcs: MCSParameters = (null). ondemand установлен. 15 сентября 05:40:47 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=4 rc=-1 15 сентября 05:40:47 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=4 rc=0 15 сентября 05:40:47 saumya-TP-GPU slurmctld[208095]: slurmctld: _slurm_rpc_submit_batch_job: JobId=4 InitPrio=4294901756 usec=733 15 сентября 05:40:48 saumya-TP-GPU slurmctld[208095]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched_min_interval=2 15 сентября 05:45:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:50:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:55:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 06:00:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают
Ответ или решение
Для решения проблемы с ошибкой (ReqNodeNotAvail, UnavailableNodes:localhost)
в Slurm на вашем компьютере с Ubuntu, давайте рассмотрим несколько ключевых аспектов, которые могут помочь вам устранить эту ошибку.
Шаги по устранению проблемы
-
Проверка конфигурационных файлов:
- Убедитесь, что файлы конфигурации Slurm (
/etc/slurm/slurm.conf
,/etc/slurm/gres.conf
и/etc/hosts
) правильно настроены. Важными параметрами являются:ControlMachine
должен содержать имя вашего localhost или его IP-адрес.- В
gres.conf
убедитесь, что GRES (Generic Resources) правильно определен, если вы планируете использовать графические процессоры (GPU). Например:NodeName=localhost Name=gpu File=/dev/nvidia0
- Убедитесь, что файлы конфигурации Slurm (
-
Проверка состояния узлов:
- Используйте команду
sinfo
для проверки состояния узлов. Если узел находится в состоянииUNKNOWN
, это указывает на проблемы с его доступностью:sinfo --Node --long
- Если узел помечен как
DOWN
илиDRAINED
, необходимо обновить его состояние:scontrol update nodename=localhost state=RESUME
- Используйте команду
-
Проверка статуса системных служб:
- Убедитесь, что службы Slurm запущены и работают корректно. Используйте:
sudo systemctl status slurmctld sudo systemctl status slurmd
- Убедитесь, что службы Slurm запущены и работают корректно. Используйте:
-
Просмотр журналов:
- Чтобы лучше понять, что идет не так, просмотрите журналы Slurm для получения информации об ошибках. Используйте команду
journalctl
:journalctl -u slurmctld
- Чтобы лучше понять, что идет не так, просмотрите журналы Slurm для получения информации об ошибках. Используйте команду
-
Параметры конфигурации:
- Если вы видите ошибки, связанные с отсутствием параметров в журнале, возможно, вам потребуется пересмотреть ваши конфигурационные файлы. Например, убедитесь, что вы правильно определили параметры
SlurmdPort
,SlurmctldPort
и другие настройки.
- Если вы видите ошибки, связанные с отсутствием параметров в журнале, возможно, вам потребуется пересмотреть ваши конфигурационные файлы. Например, убедитесь, что вы правильно определили параметры
-
Проверка имени хоста:
- Убедитесь, что имя вашего устройства правильно определено. Вы можете проверить это, выполнив команду:
hostname
- Имя компьютера должно соответствовать тому, что вы используете в
slurm.conf
.
- Убедитесь, что имя вашего устройства правильно определено. Вы можете проверить это, выполнив команду:
-
Полное перезапуск службы Slurm:
- После внесения изменений или исправлений перезапустите сервисы Slurm:
sudo systemctl restart slurmctld sudo systemctl restart slurmd
- После внесения изменений или исправлений перезапустите сервисы Slurm:
-
Незначительные ошибки конфигурации:
- Проверьте минимальные ошибки. Ошибки, такие как неверные идентификаторы пользователя или недопустимые состояния узла, могут привести к сбоям. Убедитесь, что все указанные идентификаторы существуют и имеют необходимые права.
Заключение
После выполнения всех вышеперечисленных действий, повторите попытку отправить свой пакет работы с помощью sbatch
. Если ошибка сохраняется, рекомендуется повторно просмотреть конфигурационные файлы и логи для более детального анализа или обратиться к документации Slurm по конкретным ошибкам.
Если у вас остались вопросы или потребуется дополнительная помощь, не стесняйтесь спрашивать. Удачи!