Как GNU Awk сопоставляет выражения с группами захвата?

Question

Я тестирую это на довольно старой системе Debian 10, используя

GNU Awk 4.2.1, API: 2.0 (GNU MPFR 4.0.2, GNU MP 6.1.2)

в

GNU bash, version 5.0.3(1)-release (x86_64-pc-linux-gnu)

Обе команды awk и gawk вызывают эту же версию GNU Awk.

Используя эти ответы[1][2][3], я пытаюсь написать скрипт, который обнаруживает конфликты объединения gettext, издаваемые msgcat.

Тестовый входной текст в формате “plaintext”, который далее называется merged_file.po:

"#-#-#-#-#  de.po (Application Library)  #-#-#-#-#\n"
"#-#-#-#-#  de.po (Middleware Library)  #-#-#-#-#\n"
"#-#-#-#-#  de.po  #-#-#-#-#\n"

Я выбрал awk вместо grep и sed, чтобы пропустить заголовок, используя NR > <line number>. Поскольку это работает без проблем, я опускаю это здесь для краткости.

Синтаксис строки:

"#-#-#-#-#
имя исходного файла
(Project-Id-Version), если задано в исходном файле
#-#-#-#-#\n"

Регулярное выражение, построенное с использованием RegExr и проверенное во всех вариантах, поддерживаемых regex101: #-#-#-#-#\s+\S+\s+(?:$([^()]+)$\s+)?#-#-#-#-#
(Обратите внимание, что это предполагает, что имя файла не содержит пробелов – на данный момент меня это не волнует.)

Предполагаемый эффект двоякий:

найти все вхождения в выходном .po файле, чтобы выдать сообщение об ошибке
захватить имя библиотеки в группе захвата 1, чтобы сделать сообщение об ошибке более читаемым (особенно для людей, не слишком знакомых с gettext)

Вот вызовы, которые я пробовал:

Рабочая базовая линия awk '/#-#-#-#-#\s+\S+\s+(?:$([^()]+)$\s+)?/ { print NR, $0 }' merged_file.po находит все вхождения и печатает всю строку.
awk '/#-#-#-#-#\s+\S+\s+(?:$([^()]+)$\s+)?#/ { print NR, $0 }' merged_file.po отбрасывает все вхождения с Project-Id-Version
awk 'match($0, /#-#-#-#-#\s+\S+\s+(?:$([^()]+)$\s+)?/, library_name) { print NR, "from library \047"library_name[1]"\047" }' merged_file.po печатает пустую строку вместо <Project-Id-Version>
- library_name[0] содержит строку до неконцептуальной группы, так что, по-видимому, match вообще не издаёт группы захвата – если бы это было так, library_name[0] содержал бы всю строку.
awk '/#-#-#-#-#\s+\S+\s+(?:$([^()]+)$\s+)?/ { library_name = gensub(/#-#-#-#-#\s+\S+\s+(?:$([^()]+)$\s+)?/, "\\1", "g"); print NR, "from library \047"library_name"\047" }' merged_file.po печатает "(<Project-Id-Version>) #-#-#-#-#\n" вместо <Project-Id-Version>
- \\0 действительно содержит всю строку.
- \\2 содержит ту же строку, что и \\1. (ожидаемое: пусто)

Поддержка регулярных выражений в связанных инструментах, таких как grep или sed, часто на удивление ограничена, поэтому, вместо того, чтобы просто спрашивать, почему мои конкретные вызовы не работают, я бы хотел спросить более широко:

Чем отличается сопоставление регулярных выражений в GNU Awk от “нормы”?

(Определенно) валидные X/Y ответы:

Я использую слишком старую версию. (Если да, то какую минимальную версию мне нужно иметь?)
Я пропустил и мое регулярное выражение ошибочно. (Если да, то как?)
Виноват Bash, и мне нужны некие загадочные экранирования. (Если да, то какие и почему?)
Baeldung ошибается и все-таки существует гораздо более простое решение, не использующее Awk. (Если да, то какое?)
- Чтобы в будущем не столкнуться с той же проблемой, я хотел бы получить этот ответ в дополнение к, а не вместо ответа на сам вопрос. Я действительно хотел бы лучше понимать, что можно ожидать от Awk и что лучше не надеяться.)

Как GNU Awk сопоставляет выражения с группами захвата?

Вопрос или проблема

Ответ или решение