Как предотвратить автоматический перезапуск сервера Ubuntu 22?

Вопрос или проблема

Мой сервер Ubuntu 22 перезагружается автоматически дважды в день без какого-либо ручного перезапуска. Нужна ваша помощь, чтобы узнать точную причину.

journalctl -xe | grep -i "shutdown"
Feb 06 15:04:14 frans-ProLiant-ML30-Gen10-Plus systemd[1079]: Reached target Shutdown.

Ответ или решение

Для тех, кто сталкивается с проблемой автоматической перезагрузки сервера Ubuntu 22, важно понять, что это может быть вызвано рядом факторов, начиная от аппаратных сбоев и заканчивая программными настройками. У вас возникла ситуация, когда сервер перезагружается дважды в сутки без явных указаний на это, что вызывает неудобства и может потенциально привести к потере данных или срыву критически важных процессов. В вашем случае вы провели предварительную команду анализа через journalctl и обнаружили, что сервер достигает цели "Shutdown", что подразумевает, что это может быть системное указание.

Для предотвращения проблемы, сначала давайте рассмотрим теоретические основы, которые могут быть причиной такой неизбежной перезагрузки.

Теоретический анализ:

Аппаратные причины:
- Перегрев: Аппаратный компонент, например, процессор или GPU, может перегреваться и инициировать аварийное выключение.
- Проблемы с источником питания: Неправильное питание или сбои в электросети могут приводить к непредвиденным перезапускам.
- Другие аппаратные неисправности: Проблемы с материнской платой или памятью могут вызывать сбои.
Программные причины:
- Автоматические обновления и конфигурации: Система может быть настроена на автоматическую установку обновлений, что может требовать перезагрузки для применения обновлений.
- Планировщик задач (cron jobs): Некорректно настроенные cron-задачи могут вызывать регулярные перезагрузки.
- Ошибки в системных или прикладных приложениях: В случае сбоев в работе приложений, система может перезапускаться для восстановления нормального состояния.

Пример из практики:

Предположим, что вы столкнулись с автоматической перезагрузкой из-за перегрева процессора. В этом случае, по данным из journalctl, вы могли бы заметить предупреждения о температуре. Ниже представлен пример из логов:

Feb 06 15:03:00 frans-ProLiant-ML30-Gen10-Plus kernel: CPU#0: Core temperature above threshold, cpu clock throttled

Такой пример может свидетельствовать о том, что в системе есть проблема с охлаждением, требующая внимания.

Применение на практике:

Приступим к практическому разбору шагов для определения и исправления проблемы.

Проверка аппаратных ресурсов:
- Проверьте состояние системы охлаждения, убедитесь, что вентиляторы работают правильно, и система не перегревается.
- Используйте команду sensors для мониторинга температуры и убедитесь, что она находится в допустимых пределах.
- Проверьте блок питания и кабели, чтобы исключить проблемы с электроснабжением.
Анализ планировщика (cron jobs):
- Проверьте, есть ли в /etc/crontab, /etc/cron.d/, /var/spool/cron/crontabs задачи, которые могут инициировать перезагрузку. Выполните команду crontab -l от имени root и обычных пользователей для анализа текущих задач.
Проверьте конфигурацию обновлений:
- Проверьте файл /etc/apt/apt.conf.d/50unattended-upgrades и убедитесь, что автоматическая перезагрузка не включена после обновлений, особенно для критических компонентов.
Анализ системных логов:
- Используйте journalctl -xe для анализа более подробных логов прямо перед перезагрузкой. Обратите внимание на любые аномалии, предупреждения или ошибки.
Обновление системы:
- Убедитесь, что все программные компоненты системы обновлены до актуальных стабильных версий. Используйте команды sudo apt update && sudo apt upgrade.
Проверка на наличие сбоев приложений:
- Исследуйте логи приложений, которые работают на вашем сервере. Убедитесь, что они не вызывают сбоев, которые могут привести к системной перезагрузке.

Если все шаги по устранению проблемы не привели к позитивному результату, обдумайте возможность подключения более детальных средств мониторинга и диагностики, таких как sysstat, netdata, либо специальных скриптов для захвата состояния системы непосредственно перед перезагрузкой.

Действия по предотвращению непредвиденных перезагрузок требуют системного подхода и внимания как к аппаратной, так и к программной части вашего сервера. Внимательное изучение и контроль всех параметров позволит обеспечить стабильность и надежность работы вашей системы.