awk – как вывести все поля после $5?

Question 1

У меня есть вывод, похожий на

  975  Jan/21 - 19:59:36 ### sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
  986  Jan/21 - 20:04:21 ### grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

Теперь я хочу сократить каждую строку до всего, что идет после $5, чтобы получить фактически полную команду?

Мне кажется, я мог бы сделать | awk {"print $6, $7, $8, $9, $10, $11'} … и так далее. Но это кажется слишком ненаучным, недостаточно гибким и некрасивым.

Может кто-то посоветовать, как этого добиться, или я с самого начала на неправильном пути с awk?

Question 2

Вот способ вырезать все до первого ### с использованием POSIX awk:

awk 'match($0, / ### /) {print substr($0, RSTART+RLENGTH)}'

^{примечание: это также удаляет строки, которые не содержат ###}

Question 3

Пример данных выглядит так, как будто это из истории команд, вероятно, номер команды, дата, время, последовательность ### и затем команда. В примере данные выровнены хорошо, так что задача становится такой: “Как избавиться от первых 29 символов?”. Awk не должен быть вашим первым выбором, так как вам, вероятно, нужно сохранить места, где более одного пробела, и это означает, что разбивка на поля в awk не будет вам полезна.

cut -c 30-

это один из способов сделать это. Второй способ — это наблюдать, что здесь есть фиксированная строка ### , и что здесь нет символов # перед этим. Так что вы можете использовать регулярное выражение, чтобы сопоставить начало строки, ноль или более символов, которые не являются #, и затем удалить их. Преимущество этого подхода в том, что если данные изменятся, например, если номер команды станет таким большим, что потребуется дополнительный столбец для его хранения, не потребуется изменение в этой программе.

sed 's/^[^#]*### //'

Вы могли бы использовать gsub из awk, чтобы сделать то же самое, если вы действительно хотите использовать awk.

Question 4

Можно использовать sed, при условии, что ### не появляется несколько раз в строке:

sed 's/^.* ### //'

Вывод

sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

Question 5

С помощью Perl в одну строку, чтобы напечатать все, что идет после 5-го столбца:

perl -lane 'print join " ", @F[4..$#F]' file

используя срез массива.

При использовании переключателя -a Perl ведет себя как awk и разбивает на пробелы по умолчанию в массиве @F. Вы также можете использовать -F, чтобы определить разделитель полей (может быть регулярным выражением).

Question 6

Да, вы на неправильном пути с awk. Я имею в виду, вы можете сделать это в awk, и я покажу вам как в мгновение ока, но есть другой инструмент, cut, который предназначен именно для этого. Если вы хотите напечатать все поля с 5-го до последнего, вы можете просто сделать:

cut -d ' ' -f 5-

Опция -d ' ' сообщает cut использовать пробел в качестве разделителя, потому что cut по умолчанию использует TAB. Затем, опция -f используется, чтобы указать, какие поля напечатать, и здесь мы говорим напечатать с 5-го до конца (5-).

Теперь, если ваш файл не имеет строгой структуры, если вы можете иметь, скажем, одно или более пробелов в качестве разделителя, в этом случае awk будет лучшим выбором, но это сложнее. Вы могли бы сделать что-то вроде этого, например:

awk '{ line=$5; for(i=6;i<=NF;i++){ line=line OFS $(i)} print line}'

Но это все равно изменит количество пробелов в чем-то вроде:

$ echo "a b c d e           f   g" | awk '{ line=$5; for(i=6;i<=NF;i++){ line=line OFS $(i)} print line}'
e f g

Тогда как cut этого не сделает:

$ echo "a b c d e           f   g" | cut -d ' ' -f 5-
e           f   g

Я уверен, что вы можете найти более элегантное решение с awk, но действительно, cut — это правильный инструмент здесь.

Question 7

Используя любой POSIX awk:

$ awk '{sub(/^[[:space:]]*([^[:space:]]+[[:space:]]+){5}/,"")} 1' file
sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

или GNU awk для \s/\S:

$ awk "{sub(/^\s*(\S+\s+){5}/,"")} 1' file
sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

или POSIX sed:

$ sed "s/^[[:space:]]*\([^[:space:]]\{1,\}[[:space:]]\{1,\}\)\{5\}//' file
sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

или sed, который имеет опцию -E для поддержки ERE (например, GNU и BSD seds):

$ sed -E "s/^[[:space:]]*([^[:space:]]+[[:space:]]+){5}//' file
sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

или GNU sed для -E и \s/\S:

$ sed -E "s/^\s*(\S+\s+){5}//' file
sed "/^#include_dir/a include_dir="conf.d"" /opt/db/data/efa_bauen_ni_14/postgresql.conf
grep -l "^port="5" /opt/db/data/postgres/efa_bauen_ni/conf.d/*.conf | xargs sed -i "s/port = "5/port="6/"

Question 8

С grep версиями, которые поддерживают -o (для вывода совпавшей части) и -P (для регулярных выражений, похожих на Perl):

grep -Po '\s+###\s+\K.*'

Напечатает все, что следует за первым вхождением <whitespace>###<whitespace> в каждой строке.

grep -Po '^\s*(\S+\s+){5}\K.*'

Для вывода всего, что следует за первыми 5 полями, разделенными пробелом.

Question 9

Более общий ответ, на случай, если кто-то имеет аналогичный вопрос с другим набором данных:

awk '{$1=$2=$3=$4=$5="";$0=$0;print}' [path/to/data_file]

Первая часть, $1=$2=$3=$4=$5="", устанавливает первые 5 полей в пустое значение. Недостаток этого в том, что awk все еще помнит, что у него были эти поля, поэтому print $0 оставит пустое место в начале выходной строки.

Поэтому вторая часть $0=$0 удаляет ведущие и завершающие пробелы.

Третья часть print $0 затем выводит новую, укороченную строку.

Question 10

awk ‘{for (i=6;i<=NF;i++) printf(“%s%s”,(i==6)? “”:” “,$i); printf(“\n”); } ‘ file.txt

awk – как вывести все поля после $5?

Вопрос или проблема

Ответ или решение

Теория

Примеры

Применение