Поиск и устранение неисправностей для slurm на отдельном ноутбуке с Ubuntu (ReqNodeNotAvail, UnavailableNodes:localhost)

Вопрос или проблема

Всем.

Я новый пользователь Slurm, который хочет установить его на своем ноутбуке с Ubuntu, чтобы использовать команду qsub: (https://www.mcs.anl.gov/petsc/petsc-3.7-atpesc2016/tutorials/HandsOnExercise.html, пожалуйста, посмотрите примеры.)

Я установил Slurm, следуя этому: https://wiki.alcidesfonseca.com/blog/setting-up-slurm-for-single-node-usage-in-ubuntu-2204/ и изменил некоторые имена хостов и параметры в /etc/slurm/gres.conf (прилагается) согласно помощнику Google.

$ sudo systemctl start slurmctld

$ sinfo –Node –long Пн Сент 16 00:58:46 2024 NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON
localhost 1 LocalQ* неизвестно* 96 2:24:2 128580 0 1 (null) none

Я отправил задачи, используя sbatch –wrap “-t 10 -q training -A saumya –mode c16 ./ex2 -ts_max_steps 10 -ts_monitor”

Вот как выглядит очередь: ‘$ squeue -u saumya JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 LocalQ wrap saumya PD 0:00 1 (Необходимые ноды для задания отключены, дренированы или зар reservированы для заданий в более высокоприоритетных разделах) 2 LocalQ wrap saumya PD 0:00 1 (ReqNodeNotAvail, UnavailableNodes:localhost) 3 LocalQ wrap saumya PD 0:00 1 (ReqNodeNotAvail, UnavailableNodes:localhost)

$ journalctl -u slurmctld

прилагается как journal.txt

$ sudo scontrol update nodename=saumya_TP_GPU state=resume slurm_update ошибка: указан неверный статус узла

$ scontrol reconfigure slurm_reconfigure ошибка: неверный идентификатор пользователя

Как я могу устранить неполадки?

Saumya

Я попытался устранить неполадки, исходя из логов. Я не могу определить, в чем проблема.

13 сентября 07:32:27 saumya-TP-GPU systemd[1]: Проверка условия привела к тому, что демон контроллера Slurm был пропущен. 15 сентября 04:25:55 saumya-TP-GPU systemd[1]: Демон контроллера Slurm запущен. 15 сентября 04:25:55 saumya-TP-GPU slurmctld[201981]: slurmctld: Нет параметров для плагина mcs, установлены значения по умолчанию 15 сентября 04:25:55 saumya-TP-GPU slurmctld[201981]: slurmctld: mcs: MCSParameters = (null). ondemand установлен. 15 сентября 04:26:55 saumya-TP-GPU slurmctld[201981]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched_min_interval=2 15 сентября 04:30:55 saumya-TP-GPU slurmctld[201981]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 04:42:09 saumya-TP-GPU slurmctld[201981]: slurmctld: Получен сигнал прекращения (SIGINT или SIGTERM) 15 сентября 04:42:09 saumya-TP-GPU systemd[1]: Остановка демона контроллера Slurm… 15 сентября 04:42:09 saumya-TP-GPU systemd[1]: slurmctld.service: Успешно деактивирован. 15 сентября 04:42:09 saumya-TP-GPU systemd[1]: Демон контроллера Slurm остановлен. 15 сентября 04:52:08 saumya-TP-GPU systemd[1]: Демон контроллера Slurm запущен. 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Восстановлено состояние 1 узлов 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Восстановлена информация о 0 задачах 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres/gpu: состояние для localhost 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_cnt найден:TBD настроен:2 доступно:2 выделено:0 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_bit_alloc:NULL 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_used:(null) 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres/mps: состояние для localhost 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_cnt найден:TBD настроен:200 доступно:200 выделено:0 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_bit_alloc:NULL 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: gres_used:(null) 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Восстановлено состояние 0 резервирований 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: read_slurm_conf: backup_controller не указан 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: select_p_reconfigure: select/cons_tres: перенастройка 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Работает как основной контроллер 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: Нет параметров для плагина mcs, установлены значения по умолчанию 15 сентября 04:52:08 saumya-TP-GPU slurmctld[205109]: slurmctld: mcs: MCSParameters = (null). ondemand установлен. 15 сентября 04:53:08 saumya-TP-GPU slurmctld[205109]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched_min_interval=2 15 сентября 04:55:49 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=1 rc=-1 15 сентября 04:55:49 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=1 rc=0 15 сентября 04:55:49 saumya-TP-GPU slurmctld[205109]: slurmctld: _slurm_rpc_submit_batch_job: JobId=1 InitPrio=4294901759 usec=607 15 сентября 04:57:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:02:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:07:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:12:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:17:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:22:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:27:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:29:05 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=2 rc=-1 15 сентября 05:29:05 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=2 rc=0 15 сентября 05:29:05 saumya-TP-GPU slurmctld[205109]: slurmctld: _slurm_rpc_submit_batch_job: JobId=2 InitPrio=4294901758 usec=573 15 сентября 05:30:09 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=3 rc=-1 15 сентября 05:30:09 saumya-TP-GPU slurmctld[205109]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=3 rc=0 15 сентября 05:30:09 saumya-TP-GPU slurmctld[205109]: slurmctld: _slurm_rpc_submit_batch_job: JobId=3 InitPrio=4294901757 usec=795 15 сентября 05:32:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:37:08 saumya-TP-GPU slurmctld[205109]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:37:33 saumya-TP-GPU slurmctld[205109]: slurmctld: Получен сигнал прекращения (SIGINT или SIGTERM) 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: Остановка демона контроллера Slurm… 15 сентября 05:37:33 saumya-TP-GPU slurmctld[205109]: slurmctld: Сохранение всего состояния slurm 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: slurmctld.service: Успешно деактивирован. 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: Демон контроллера Slurm остановлен. 15 сентября 05:37:33 saumya-TP-GPU systemd[1]: slurmctld.service: Использовано 1.649s времени ЦП. 15 сентября 05:40:23 saumya-TP-GPU systemd[1]: Демон контроллера Slurm запущен. 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлено состояние 1 узлов 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлен JobId=1 Assoc=0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлен JobId=2 Assoc=0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлен JobId=3 Assoc=0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлена информация о 3 задачах 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres/gpu: состояние для localhost 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_cnt найден:TBD настроен:2 доступно:2 выделено:0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_bit_alloc:NULL 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_used:(null) 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres/mps: состояние для localhost 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_cnt найден:TBD настроен:200 доступно:200 выделено:0 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_bit_alloc:NULL 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: gres_used:(null) 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Восстановлено состояние 0 резервирований 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: read_slurm_conf: backup_controller не указан 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: select_p_reconfigure: select/cons_tres: перенастройка 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: part_data_create_array: select/cons_tres: подготовка к 1 разделам 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Работает как основной контроллер 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: Нет параметров для плагина mcs, установлены значения по умолчанию 15 сентября 05:40:23 saumya-TP-GPU slurmctld[208095]: slurmctld: mcs: MCSParameters = (null). ondemand установлен. 15 сентября 05:40:47 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=4 rc=-1 15 сентября 05:40:47 saumya-TP-GPU slurmctld[208095]: slurmctld: select/cons_tres: common_job_test: нет информации о ресурсах задачи для JobId=4 rc=0 15 сентября 05:40:47 saumya-TP-GPU slurmctld[208095]: slurmctld: _slurm_rpc_submit_batch_job: JobId=4 InitPrio=4294901756 usec=733 15 сентября 05:40:48 saumya-TP-GPU slurmctld[208095]: slurmctld: SchedulerParameters=default_queue_depth=100,max_rpc_cnt=0,max_sched_time=2,partition_job_depth=0,sched_max_job_start=0,sched_min_interval=2 15 сентября 05:45:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:50:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 05:55:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают 15 сентября 06:00:23 saumya-TP-GPU slurmctld[208095]: slurmctld: ошибка: Узлы localhost не отвечают

Ответ или решение

Для решения проблемы с ошибкой (ReqNodeNotAvail, UnavailableNodes:localhost) в Slurm на вашем компьютере с Ubuntu, давайте рассмотрим несколько ключевых аспектов, которые могут помочь вам устранить эту ошибку.

Шаги по устранению проблемы

  1. Проверка конфигурационных файлов:

    • Убедитесь, что файлы конфигурации Slurm (/etc/slurm/slurm.conf, /etc/slurm/gres.conf и /etc/hosts) правильно настроены. Важными параметрами являются:
      • ControlMachine должен содержать имя вашего localhost или его IP-адрес.
      • В gres.conf убедитесь, что GRES (Generic Resources) правильно определен, если вы планируете использовать графические процессоры (GPU). Например:
        NodeName=localhost Name=gpu File=/dev/nvidia0
  2. Проверка состояния узлов:

    • Используйте команду sinfo для проверки состояния узлов. Если узел находится в состоянии UNKNOWN, это указывает на проблемы с его доступностью:
      sinfo --Node --long
    • Если узел помечен как DOWN или DRAINED, необходимо обновить его состояние:
      scontrol update nodename=localhost state=RESUME
  3. Проверка статуса системных служб:

    • Убедитесь, что службы Slurm запущены и работают корректно. Используйте:
      sudo systemctl status slurmctld
      sudo systemctl status slurmd
  4. Просмотр журналов:

    • Чтобы лучше понять, что идет не так, просмотрите журналы Slurm для получения информации об ошибках. Используйте команду journalctl:
      journalctl -u slurmctld
  5. Параметры конфигурации:

    • Если вы видите ошибки, связанные с отсутствием параметров в журнале, возможно, вам потребуется пересмотреть ваши конфигурационные файлы. Например, убедитесь, что вы правильно определили параметры SlurmdPort, SlurmctldPort и другие настройки.
  6. Проверка имени хоста:

    • Убедитесь, что имя вашего устройства правильно определено. Вы можете проверить это, выполнив команду:
      hostname
    • Имя компьютера должно соответствовать тому, что вы используете в slurm.conf.
  7. Полное перезапуск службы Slurm:

    • После внесения изменений или исправлений перезапустите сервисы Slurm:
      sudo systemctl restart slurmctld
      sudo systemctl restart slurmd
  8. Незначительные ошибки конфигурации:

    • Проверьте минимальные ошибки. Ошибки, такие как неверные идентификаторы пользователя или недопустимые состояния узла, могут привести к сбоям. Убедитесь, что все указанные идентификаторы существуют и имеют необходимые права.

Заключение

После выполнения всех вышеперечисленных действий, повторите попытку отправить свой пакет работы с помощью sbatch. Если ошибка сохраняется, рекомендуется повторно просмотреть конфигурационные файлы и логи для более детального анализа или обратиться к документации Slurm по конкретным ошибкам.

Если у вас остались вопросы или потребуется дополнительная помощь, не стесняйтесь спрашивать. Удачи!

Оцените материал
Добавить комментарий

Капча загружается...