Лучший Unix ‘find’ с параллельной обработкой

Question 1

Утилита Unix find(1) очень полезна, позволяя мне выполнять действия над многими файлами, которые соответствуют определённым критериям, например:

find /dump -type f -name '*.xml' -exec java -jar ProcessFile.jar {} \;

Приведённый выше пример может запускать скрипт или инструмент для каждого XML-файла в определённом каталоге.

Допустим, мой скрипт/программа требует много времени процессора, и у меня 8 процессоров. Было бы неплохо обрабатывать до 8 файлов одновременно.

GNU Make позволяет выполнять параллельную обработку заданий с флагом -j, но find, похоже, не имеет такой функциональности. Существует ли альтернативный универсальный метод планирования заданий для решения этой задачи?

Question 2

xargs с опцией -P (количество процессов). Допустим, я хочу сжать все журналы в каталоге на машине с 4 процессорами:

find . -name '*.log' -mtime +3 -print0 | xargs -0 -P 4 bzip2

Вы также можете указать -n <number> для максимального количества рабочих единиц на процесс. Допустим, у меня было 2500 файлов, и я указал:

find . -name '*.log' -mtime +3 -print0 | xargs -0 -n 500 -P 4 bzip2

Это запустит 4 процесса bzip2, каждый из которых будет обработан на 500 файлов, и когда первый завершится, будет запущен следующий для последних 500 файлов.

Не знаю, почему предыдущий ответ использует xargs и make, у вас же два параллельных механизма!

Question 3

GNU parallel тоже может помочь.

find /dump -type f -name '*.xml' | parallel -j8 java -jar ProcessFile.jar {}

Обратите внимание, что без аргумента -j8 parallel по умолчанию использует количество ядер на вашем компьютере 🙂

Question 4

Нет необходимости “исправлять” find; используйте сам make для обработки параллелизма.

Пусть ваш процесс создаёт файл журнала или какой-то другой файл вывода, затем используйте Makefile, подобный этому:

.SUFFIXES:    .xml .out

.xml.out:
        java -jar ProcessFile.jar $< 1> $@

и вызывается так:

find /dump -type f -name '*.xml' | sed -e 's/\.xml$/.out/' | xargs make -j8

Более того, если вы убедитесь, что файл вывода создаётся только при успешном завершении процесса Java, вы можете воспользоваться обработкой зависимостей в make, чтобы гарантировать, что в следующий раз будут обрабатываться только необработанные файлы.

Question 5

У команды find есть параллельная опция, которую вы можете использовать напрямую с помощью символа “+”; без xargs. В сочетании с grep она может быстро проходить через ваше дерево, искомые совпадения. Например, если я ищу все файлы в каталоге исходников, содержащие строку ‘foo’, я могу вызвать
find sources -type f -exec grep -H foo {} +

Question 6

Все предложенные варианты обеспечивают параллельное выполнение, но если ваше дерево файлов достаточно велико, узким местом может стать сам find. Один мой коллега написал locar как параллельный поиск, который очень полезен, когда ваша файловая система может выполнять сканирование параллельно. Это может не помочь, если ваша файловая система расположена на одном HDD, но если это устройство RAID, SSD или, лучше, распределённая файловая система, это будет очень полезно.

locar будет выполнять сканирование файлов параллельно в нескольких каталогах, так что вы получите список файлов быстрее и сможете затем комбинировать это с xargs или parallel для параллельного выполнения.

Лучший Unix ‘find’ с параллельной обработкой

Вопрос или проблема

Ответ или решение

Улучшенная утилита Unix ‘find’ с параллельной обработкой

Использование `xargs` для параллельной обработки

Использование GNU Parallel

Интеграция с `make`

Оригинальная возможность `find` с параллельной обработкой

Использование Locar для параллельного поиска

Заключение

Лучший Unix ‘find’ с параллельной обработкой

Вопрос или проблема

Ответ или решение

Улучшенная утилита Unix ‘find’ с параллельной обработкой

Использование xargs для параллельной обработки

Использование GNU Parallel

Интеграция с make

Оригинальная возможность find с параллельной обработкой

Использование Locar для параллельного поиска

Заключение

Использование `xargs` для параллельной обработки

Интеграция с `make`

Оригинальная возможность `find` с параллельной обработкой