Инструмент без fsync, такой как eatmydata, все еще актуален?

Question 1

Я только что услышал об eatmydata, который отключает fsync для ускорения работы, когда безопасность данных не требуется (тесты, сборки CI и т. д.):

libeatmydata — это небольшая библиотека LD_PRELOAD, предназначенная для (прозрачного) отключения fsync (и его друзей, таких как open(O_SYNC)). Это имеет два побочных эффекта: делает так, чтобы программное обеспечение, записывающее данные безопасным образом на диск, работало намного быстрее, и делает так, чтобы это программное обеспечение больше не было устойчивым к сбоям.

Он появился в 2007 году, но все еще активно поддерживается на Github. Однако не все дистрибутивы включают его; например, в Fedora есть пакет nosync, который более или менее эквивалентен (он не включает команду-обертку, но вместо этого требует использования LD_PRELOAD).

Однако, после того как я попробовал его на нескольких рабочих нагрузках на разных машинах (одна с HDD, другая с SSD) как на Ubuntu, так и на Fedora, различия во времени выполнения были незначительными: около 5 секунд на задаче длительностью 2 часа; 0,5с на задаче длительностью 2 минуты и т.д. Согласно результатам Google, пользователи прошлого сообщали о весьма значительных улучшениях во времени выполнения.

Произошло ли что-то с тех пор, что сделало эту “оптимизацию” ненужной? Являются ли последние версии ОС более умными в обращении с fsync? Существует ли какая-то работа, которую легко протестировать, в которой все еще можно наблюдать большие различия?

Question 2

когда безопасность данных не нужна (тесты, сборки CI и т. д.):

Тесты и сборки CI в общем-то не используют явный fsync много. Насколько я видел, наиболее распространенные случаи использования eatmydata были в ситуациях, когда каждый. отдельный. файл. должен был фсинкаться перед переходом к следующему. Два примера этого — фаза распаковки apt-get и различные операции в SVN (такие как svnsync sync).

Являются ли последние ОС более умными в обращении с fsync?

Файловые системы могут обрабатывать это по-разному, например, если я правильно помню, ext4 работал таким образом, что fsync’и отдельных файлов были гораздо более глобальными, чем обычно (и недавно добавленная функция “fast commit” должна улучшить это), в то время как на том же XFS это может быть не так.

Обратите внимание на то, что “глобальный” означает, что другие задачи, выполняющиеся на той же машине, также имели бы эффект – например, файлы журналов, которые записываются, или просто любая недавняя задача, которая произвела много записей и они всё ещё буферизуются, и попытка fsync() одного файла в итоге вымывает те гигабайты несвязанных записей также. Это то, что вы не увидите, когда используете полностью выделенную, простую систему для ваших бенчмарков…

Инструмент без fsync, такой как eatmydata, все еще актуален?

Вопрос или проблема

Ответ или решение