Медленный доступ к файлам Linux в /tmp

Question 1

time touch /tmp/test.dat

real    0m1.03s
user    0m0.00s
sys     0m1.02s

Целая секунда системного времени для создания файла в /tmp. Это может стать непереносимым для скриптов ksh, которые открывают десятки файлов в /tmp для обработки в дочерних оболочках.

strace показывает время на вызове openat:

strace -tttT touch /tmp/test.dat

. . . [clip] . . .
1737560680.004656 close(3)              = 0 <0.000013>
1737560680.004750 openat(AT_FDCWD, "/tmp/test.dat", O_WRONLY|O_CREAT|O_NOCTTY|O_NONBLOCK, 0666) = 3 <1.370377>
1737560681.375253 dup2(3, 0)            = 0 <0.000026>
. . . [clip] . . .

Текущий ЦП в ходе этих тестов имеет 70-80% простоя. Достаточно памяти. /tmp использовано только на 1%, хотя под ним находится много пустых каталогов (5,268). Сервер работает уже 96 дней. У нас была эта проблема на другом сервере, который по какой-то причине паниковал и перезагружался. После перезагрузки проблема исчезла – доступ к /tmp снова был быстрым. Таким образом, что-то со временем приводит к тому, что доступ к /tmp становится все медленнее и медленнее, и перезагрузка это исправляет.

Версия ОС: 5.4.17-2136.322.6.4.el8uek.x86_64, разработанная Oracle (это вычислительный узел Exadata)

Монтирование /tmp: /dev/mapper/VGExaDb-LVDbTmp xfs 45G 45M 45G 1% /tmp

Поддержка Oracle развела руками (если честно, они особо и не пытались). Есть ли у кого-то из гуру Unix идеи, что можно сделать? Какие вещи могут быть причиной такой медлительности?

Question 2

Есть ли у кого-то из гуру Unix идеи, что можно сделать?

Если вы арендуете хранилище, и доступ к нему занимает 1 сек, а у вас нет привилегий для отслеживания данных между вашими программами и хранилищем:

Ни один гуру ничего не смогут сделать; им нужно быть поддержкой вашего облачного провайдера. Очень ясно, что ваше /dev/mapper/VGExaDb-LVDbTmp испытывает чрезмерно высокую задержку, и это не то, что вы можете исправить из пользовательского пространства.

Какие вещи могут быть причиной такой медлительности?

Поврежденное оборудование. Сильно загруженная пропускная способность хранилища. Проблемы с разрешением пользователей (например, LDAP медленно работает из-за каких-то проблем с DNS, а сервер не настроен на кэширование учетных данных). Полная перегрузка ЦП. Миллион процессов, удаляющих и создающих файлы на той же файловой системе, пока вы это делаете.

Таким образом, что-то со временем приводит к тому, что доступ к /tmp становится все медленнее и медленнее, и перезагрузка это исправляет.

Возможно, реально есть какой-то другой длительный процесс, который действительно нагружает эту файловую систему изменениями метаданных? Звучит маловероятно. Более вероятно, что хранилище очень медленное и после более долгого времени работы все кэши заполнены. К сожалению, это опять-таки вопрос, который нужен вашему облачному провайдеру, если только вы не видите огромного потребления ЦП на вашем узле, что, скорее всего, вы бы заметили раньше.

Медленный доступ к файлам Linux в /tmp

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение