Что объясняет это очень странное поведение GNU grep во взаимодействии с буферизацией и каналами и как это остановить?

Question 1

Это лучше всего проиллюстрировать на примере:

{ printf 'foo\nbar\n' ; sleep 2 ; } | grep -m1 foo { printf 'foo\n' ; sleep 2 ; printf 'bar\n' ; sleep 2 ; } | grep -m1 foo

Обе эти команды, выполненные в Bash с использованием GNU coreutils, по какой-то причине ведут себя совершенно одинаково:

Первый grep выводит «foo» с символом новой строки после него, но продолжает блокироваться.
Затем grep ждет 2 секунды и завершает работу.

Ожидаемое поведение для меня в обоих случаях заключается в том, что grep должен напечатать «foo» с новой строкой и сразу же выйти, не дожидаясь двух секунд. В конце концов, он уже выполнил свое условие одной точной совпадения и знает, что любое последующее введенное нельзя изменить. Действительно, если я сделаю это:

{ printf 'foo' ; sleep 2 ; } | grep -m1 foo

Без новой строки после «foo» он сначала ждет две секунды, ничего не делая, а затем выходит, печатая «foo» с новой строкой после него. Это имеет смысл: grep еще не получил никаких новых строк, поэтому он еще не знает, что может следовать после этих двух секунд, поэтому он не может еще распечатать то, что будет на строке с совпадением.

Но я, в частности, не понимаю, почему первые две команды функционируют так, как они это делают. Во втором случае, GNU grep сразу же выходит после получения второй строки и не ждет окончания двух секунд сна для завершения команды перед трубой, тогда как в первой команде он получает foo\nbar\n сразу на двух строках, и, тем не менее, он не выходит немедленно после получения второй строки. Я предполагаю, что это как-то связано с тем, как работает буферизация.

Если вам интересен мой реальный случай использования и почему я исследую это. Я использую это в скрипте с udevadm monitor, чтобы отфильтровать конкретное событие, и когда это событие достигается, я хочу прекратить блокировку, поэтому я использую udevadm monitor | egrep -m1 <regex>. Все шло хорошо, за исключением того, что я заметил, что он не прекращает блокировку, когда конкретно искомое событие является последним, о котором сообщил udevadm, тогда он только прекращает блокировку после отправки нового события. По какой-то причине в этом случае grep только выходит и выводит первое совпадение после получения строки или получения конца файла. Почему это происходит и как сделать так, чтобы это не происходило?

Question 2

Я на самом деле написал этот вопрос, и потом кто-то другой помог мне приблизиться к ответу, но я все равно решил создать эту тему и ответить самостоятельно, чтобы распространить знания, так как я думаю, что многие могут столкнуться с этим.

Простой ответ заключается в том, что трубы в оболочке на самом деле не выходят, когда последний процесс в пайплайне завершается, а когда все они завершаются. Если одно из них содержит бесконечный цикл, весь пайплайн будет продолжать работать вечно.

Часть grep на самом деле завершается, когда она находит первую строку, которую может соответствовать и возвращает. Причина, по которой весь пайплайн завершается через две секунды, заключается в том, что записывающая часть затем сталкивается с зависшей трубой, когда пытается снова записать и получает SIGPIPE, а затем завершается на этой попытке записи, но она не знает, что другая конечность зависла, пока не начнет записывать. Возможно, в идеальном мире она бы получила SIGPIPE в момент, когда другая конечность зависает, хотя я предполагаю, что другая конечность может вновь открыть, но она знает, что другая конечность зависла, только когда фактически пытается записать. Она просит прощения, а не разрешения, именно поэтому она заканчивается только тогда.

В случае записи двух строк сразу, они сначала записываются в одном буферизированном потоке, затем процесс grep зависает, выполнив свою задачу.

Способ решения этой проблемы в конкретном скрипте – это вручную проверить статус завершения grep с анонимной именованной трубой:

# мы создаем трубу, а затем отвязываем ее и назначаем ее файловый дескриптор 3, чтобы создать анонимную трубу # создать анонимный fifo на файловом дескрипторе 3, создав его # затем открыть файл дескриптора к нему и удалить его снова # мы используем каталог, чтобы убедиться, что это атомарно fifodir=$(mktemp -d) mkfifo -- "$fifodir/fifo" exec 3<>"$fifodir/fifo" rm -r -- "$fifodir" # теперь выполняем трубу вручную udevadm monitor <args> >&3 & udevadmpid=$! # и ждем только на процессе grep egrep -m1 <pattern> <&3 & wait $! # мы даже убиваем это для чистоты, хотя это не обязательно kill $udevadmpid

Question 3

Используйте опцию --line-buffered вывода GNU grep.

В противном случае, вывод grep остается в буфере STDOUT до тех пор, пока он не будет сброшен, когда grep завершит работу.

Что объясняет это очень странное поведение GNU grep во взаимодействии с буферизацией и каналами и как это остановить?

Вопрос или проблема

Ответ или решение

Теория: Буферизация и конвейеры в Unix

Пример: Взаимодействие grep и элементарные примеры конвейеров

Применение: Решение проблемы

Альтернативные подходы

Заключение