Вопрос или проблема
У меня есть кластер k3s с 3 узлами (ubuntu2, ubuntu3 и ubuntu4). Каждый узел – это сервер Ubuntu 24.04.
На каждом из них я включил автоматическое обновление в ночное время.
Проблема в том, что на ubuntu2 у меня происходит несколько перезагрузок в день! (разное количество, но от 3-4 до даже 7-8) в разное время дня и ночи. На остальных 2 узлах у меня менее 1 перезагрузки в день (что кажется правильным числом).
На ubuntu2 я нашел различные таймеры в journalctl, которые вызывают перезагрузки, и просто отключил их
sudo systemctl disable apt-daily.timer
sudo systemctl disable apt-daily-upgrade.timer
sudo systemctl stop apt-daily.timer
sudo systemctl stop apt-daily-upgrade.timer
sudo systemctl stop ua-timer.service
sudo systemctl disable ua-timer.service
sudo systemctl stop ua-timer.timer
sudo systemctl disable ua-timer.timer
но 1) я не знаю, не хватает ли чего-то ещё 2) это не кажется истинной причиной проблемы, потому что на других двух машинах они включены и не перезагружаются.
Чтобы дать вам представление о проблеме, вот перезагрузки за вчера и сегодня. Только 3 с (X) из 11 были сделаны мной. Все остальные были вызваны чем-то другим.
guido@ubuntu2:~$ last reboot
reboot system boot 6.8.0-49-generic Tue Nov 19 10:40 still running (X)
reboot system boot 6.8.0-48-generic Tue Nov 19 09:42 - 10:38 (00:55) (X)
reboot system boot 6.8.0-48-generic Tue Nov 19 05:15 - 10:38 (05:22)
reboot system boot 6.8.0-48-generic Mon Nov 18 21:28 - 10:38 (13:09) (X)
reboot system boot 6.8.0-48-generic Mon Nov 18 19:44 - 21:26 (01:41)
reboot system boot 6.8.0-48-generic Mon Nov 18 18:27 - 21:26 (02:59)
reboot system boot 6.8.0-48-generic Mon Nov 18 15:38 - 21:26 (05:48)
reboot system boot 6.8.0-48-generic Mon Nov 18 15:30 - 21:26 (05:55)
reboot system boot 6.8.0-48-generic Mon Nov 18 14:37 - 21:26 (06:49)
reboot system boot 6.8.0-48-generic Mon Nov 18 05:32 - 21:26 (15:54)
reboot system boot 6.8.0-48-generic Mon Nov 18 03:14 - 21:26 (18:11)
И чтобы дать общее представление, на ubuntu3 у меня менее 1 перезагрузки в день.
Также сегодня я просто выполнил последнее обновление и получил последнюю версию ядра (6.8.0-49). Не знаю, может ли это помочь.
Ища ошибки в journalctl, я обнаружил эту “текущую” ошибку при каждой перезагрузке
guido@ubuntu2:~$ journalctl --since "1 days ago" -p 3
Nov 18 14:37:23 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 18 14:37:23 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 18 14:37:23 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
-- Boot 5b5571a916b64a3ebc9731a6b6e7444f --
Nov 18 15:30:44 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 18 15:30:44 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 18 15:30:44 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
-- Boot 72b8586898c14d759b4f10756c4db9d2 --
Nov 18 15:38:07 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 18 15:38:07 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 18 15:38:07 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
Nov 18 16:51:36 ubuntu2 sudo[117623]: pam_unix(sudo:auth): conversation failed
Nov 18 16:51:36 ubuntu2 sudo[117623]: pam_unix(sudo:auth): auth could not identify password for [guido]
-- Boot 446fb39d4d6c42fca40e0162a7ae58cb --
Nov 18 18:27:04 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 18 18:27:04 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 18 18:27:04 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
-- Boot bb524db3dbd94271b7f71a8ef5b33723 --
Nov 18 19:44:51 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 18 19:44:51 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 18 19:44:51 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
Nov 18 21:25:40 ubuntu2 sudo[156493]: pam_unix(sudo:auth): conversation failed
Nov 18 21:25:40 ubuntu2 sudo[156493]: pam_unix(sudo:auth): auth could not identify password for [guido]
Nov 18 21:26:35 ubuntu2 iscsid[1005]: semop down failed 22
Nov 18 21:26:40 ubuntu2 canonical-livepatch.canonical-livepatchd[798]: daemon shutting down
-- Boot 10acfa7dc8884d59848ddeeadb6cca82 --
Nov 18 21:28:21 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 18 21:28:21 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 18 21:28:21 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
-- Boot 8513572e9b164f9b9469f2b1ad347c63 --
Nov 19 05:15:21 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 19 05:15:21 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 19 05:15:21 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
-- Boot 595e36d7058f4ae383768e44a90cd3c1 --
Nov 19 09:42:40 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 19 09:42:40 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 19 09:42:40 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
Nov 19 10:38:09 ubuntu2 canonical-livepatch.canonical-livepatchd[842]: daemon shutting down
Nov 19 10:38:09 ubuntu2 iscsid[1053]: semop down failed 22
-- Boot adc110945062484495d197fd48bc34a6 --
Nov 19 10:40:05 ubuntu2 kernel: x86/cpu: SGX disabled by BIOS.
Nov 19 10:40:05 ubuntu2 kernel: ACPI BIOS Error (bug): AE_AML_BUFFER_LIMIT, Field [CAP1] at bit offset/length 64/32 exceeds size of target Buffer (64 bits) (20230628/dsopcode-198)
Nov 19 10:40:05 ubuntu2 kernel: ACPI Error: Aborting method \_SB._OSC due to previous error (AE_AML_BUFFER_LIMIT) (20230628/psparse-529)
guido@ubuntu2:~$
Но я не знаю, как их исправить и связано ли это (на ubuntu3 и ubuntu4 у меня нет этой ошибки).
Какие-либо идеи для устранения неполадок и нахождения истинной причины проблемы?
Спасибо!
Ответ или решение
Анализ проблемы с многократными перезагрузками Ubuntu Server 24.04
Ваша ситуация, где узел Ubuntu2 в кластере k3s перезагружается несколько раз в день, в отличие от других узлов (Ubuntu3 и Ubuntu4), вызывает некоторые подозрения. Проблема кажется либо программной (возможно, связанной с обновлениями или конфигурацией), либо аппаратной (например, из-за конфликтов BIOS или оборудования).
1. Настройка автоматических обновлений
Вы уже отключили несколько таймеров, связанных с автоматическими обновлениями, но это не решило основную проблему. Другие настройки, такие как Unattended Upgrades
, могут вызывать перезагрузку, если они неправильным образом настроены. Рекомендуется проверить файл конфигурации /etc/apt/apt.conf.d/50unattended-upgrades
на наличие параметров, связанных с перезагрузкой, например:
Unattended-Upgrade::Automatic-Reboot "true"; # Проверят, не включен ли автовыбор
Если это так, отключите автоматическую перезагрузку, установив значение "false".
2. Просмотр системного журнала
По вашему запросу, использование journalctl
ограничивается последними сообщениями, связанными с ошибками и перезагрузками. Строки, начинающиеся с ACPI BIOS Error
, указывают на потенциальные проблемы с BIOS. Вам стоит обновить BIOS до последней версии, так как в устаревших версиях могут быть исправления ошибок, влияющие на работу операционной системы.
Рекомендуется также проверить другие журналы, такие как syslog
или kern.log
, для анализа различий в поведении узлов:
sudo cat /var/log/syslog | grep -i reboot
sudo cat /var/log/kern.log | grep -i reboot
3. Проверка аппаратной части
Перезагрузки могут быть вызваны и аппаратными проблемами. Свяжитесь с производителем сервера и уточните, нет ли известных ошибок для вашей модели. Убедитесь, что термодатчики и другие компоненты системы работают нормально, чтобы избежать перегрева или других проблем, которые могут инициировать перезагрузку системы.
4. Получение информации о настроенных службах
Учитывая, что у вас уже есть команда для отключения timer-сервисов, убедитесь, что нет дополнительных служб, который могут инициировать перезагрузку. Используйте следующую команду, чтобы получить список всех активных таймеров:
systemctl list-timers --all
Фильтруйте и ищите таймеры, которые могли бы инициировать перезагрузку, и отключите их, если они не нужны.
5. Сравнение конфигураций
Сравните /etc
папку на Ubuntu2 с Ubuntu3 и Ubuntu4 для выявления разниц в конфигурации. Например, проверьте файлы конфигурации системы, такие как fstab
, сетевые настройки и т. д. Используйте утилиты для сравнения, такие как diff
, для идентификации изменений:
diff -r /etc/ubuntu2 /etc/ubuntu3
Резюме
- Проверка настроек
Unattended Upgrades
на наличие автовыборов. - Обновление BIOS до последней версии.
- Анализ системных журналов для выявления источника проблемы.
- Полная проверка аппаратных компонентов на предмет неисправностей.
- Сравнение конфигураций между узлами.
На базе вышеуказанных шагов, вы сможете более глубоко понять корень проблемы и, возможно, устранить многократные перезагрузки на вашем узле Ubuntu2. Не забывайте проводить регулярный мониторинг системы для предотвращения будущих проблем.