Как посчитать пустые поля в файле с разделителями в Unix

Question 1

из скрипта ниже:

EmpID:Name:Designation:UnitName:Location:DateofJoining:Salary
1001:Thomson:SE:IVS:Mumbai:10-Feb-1999:60000
1002:Johnson:TE::Bangalore:18-Jun-2000:50000
1003:Jackson:DM:IMS:Hyderabad:23-Apr-1985:90000
1004:BobGL::ETA:Mumbai:05-Jan-2004:55000
1005:Alice:PA:::26-Aug-2014:25000
1006:LilySE::IVS:Bangalore:17-Dec-2015:40000
1007:Kirsten:PM:IMS:Mumbai:26-Aug-2014:45000
1004:BobGL::ETA:Mumbai:05-Jan-2021:55000

Я хотел бы получить количество пустых мест (которые представлены как ‘::’). Большое спасибо за вашу поддержку.

Question 2

Предполагая, что вы хотите подсчитать количество пустых полей в вашем файле CSV, разделенном двоеточием, мы можем сделать это с помощью Miller (mlr) следующим образом:

$ mlr --csv --ifs colon put -q 'for (k,v in $*) { is_empty(v) { @count=@count+1 } } end { print @count }' file
6

Поскольку Miller понимает CSV, он также правильно обрабатывает поля, содержащие встроенные двоеточия. Например, следующий CSV имеет два пустых поля (Designation и Salary):

EmpID:Name:Designation:UnitName:Location:DateofJoining:Salary
1008:"Text::CSV"::"Team::Overseas":Stockholm:2025-03-03:

Question 3

Вы можете объединить несколько стандартных утилит:

_{редактировать: Спасибо @Kusalananda за напоминание о grep -c}

<file.txt tr ':' '\n' | grep -c '^$'

или использовать awk:

<file.txt awk -F: '{for (i=1; i<=NF; i++) n+=($i=="")} END {print n}'

То есть до тех пор, пока входные поля не содержат символов LF или :.

Question 4

Вам нужно чистое Bash решение?

пример на awk, который POSIX!

awk 'BEGIN { counter=0; } { text=$0; while (spaceI=index(text,"::")) { text=substr(text,spaceI+2); counter++; }} END { print counter; }' < your_file

или

echo - n 'EmpID:Name:Designation:UnitName:Location:DateofJoining:Salary
1001:Thomson:SE:IVS:Mumbai:10-Feb-1999:60000
1002:Johnson:TE::Bangalore:18-Jun-2000:50000
1003:Jackson:DM:IMS:Hyderabad:23-Apr-1985:90000
1004:BobGL::ETA:Mumbai:05-Jan-2004:55000
1005:Alice:PA:::26-Aug-2014:25000
1006:LilySE::IVS:Bangalore:17-Dec-2015:40000
1007:Kirsten:PM:IMS:Mumbai:26-Aug-2014:45000
1004:BobGL::ETA:Mumbai:05-Jan-2021:55000' | awk 'BEGIN { counter=0; } { text=$0; while (spaceI=index(text,"::")) { text=substr(text,spaceI+2); counter++; }} END { print counter; }'

Bash:

{ counter=0; while IFS= read -r line; do doIT=1; while ((doIT > 0)); do line_L=${#line}; line=${line#*::}; if ((line_L > ${#line})); then ((counter++)); else doIT=0; fi; done; done; echo -n "$counter" ; } < your_file

Question 5

Вот реализация с использованием sed и wc, а также чистая реализация на bash, вместе с образцом кода для вызова обоих. Я бы рекомендовал первое.

#!/bin/bash

sedwc() {
    local v=( $( sed <$1 -e 's/^/:/;s/$/:/;s/[^:][^:]*/x/g;s/::/:y:/g;s/::/:y:/g;s/[x:]//g' | wc ) )
    echo $(( ${v[2]} - ${v[0]} ))
}

purebash() {
    local line count=0 mod
    while read line
    do
        while true
        do
            mod="${line/::/:}"
            [[ "$line" = "$mod" ]] && break
            : $(( count++ ))
            line="$mod"
        done
    done <"$1"
    echo $count
}

a=$( sedwc sample )
b=$( purebash sample )

echo sedwc = "$a" purebash = "$b"

Одно, что подразумевает ваш формат входных данных, но вы не указываете, это то, что пустые записи могут быть в начале и в конце строки. Реализация sedwc учитывает их, добавляя дополнительное двоеточие в начале и конце каждой строки. Если эти пустые значения не должны учитываться, вы можете удалить текст s/^/:/;s/$/:/;.

Я считаю, что стоит объяснить реализацию sed wc:

команда	значение	образец содержимого
		1005:Alice:PA:::26-Aug-2014:25000
s/^/:/;	добавить дополнительное двоеточие в начале, чтобы поймать пустое первое поле	:1005:Alice:PA:::26-Aug-2014:25000
s/$/:/;	добавить дополнительное двоеточие в конце, чтобы поймать пустое последнее поле	:1005:Alice:PA:::26-Aug-2014:25000:
s/[^:][^:]*/x/g;	заменить все непустые поля на “x”	:x:x:x:::x:x:
s/::/:y:/g;	заменить каждое второе пустое поле на “y”	:x:x:x:y::x:x:
s/::/:y:/g;	заменить другие пустые поля на “y”	:x:x:x:y:y:x:x:
s/[x:]//g	удалить все “x” и “:” значения, оставив только “y”.	yy

Затем wc выводит всего строки, всего слова и всего символы. Это переводится как: всего записи, записи с любыми пустыми полями и всего записи плюс всего пустые поля. Некоторое простое уравнение затем выводит количество пустых полей.

Question 6

Используя Raku (ранее известный как Perl_6)

~$ BEGIN my $i; m:overlap/ [ ^ ":" || "::" || ":" $ ] { ++$i } /; END say $i;'    file

Raku — это язык программирования в семействе Perl, который является хорошим выбором, если вы работаете с файлом Unicode/UTF-8.

Выше мы вызываем Raku в командной строке с флагами -ne, аналогичными awk, но без автопечати. Мы BEGIN объявляем переменную-счётчик $i. Чтобы обеспечить корректное подсчёте смежных двоеточий, мы используем модификатор :overlap (именованный аргумент).

Пример входных данных:

EmpID:Name:Designation:UnitName:Location:DateofJoining:Salary
1001:Thomson:SE:IVS:Mumbai:10-Feb-1999:60000
1002:Johnson:TE::Bangalore:18-Jun-2000:50000
1003:Jackson:DM:IMS:Hyderabad:23-Apr-1985:90000
1004:BobGL::ETA:Mumbai:05-Jan-2004:55000
1005:Alice:PA:::26-Aug-2014:25000
1006:LilySE::IVS:Bangalore:17-Dec-2015:40000
1007:Kirsten:PM:IMS:Mumbai:26-Aug-2014:45000
1004:BobGL::ETA:Mumbai:05-Jan-2021:55000

Пример выхода: 6

Если вы хотите увидеть совпадения, просто добавьте вызов say, с ++$ и => для предоставления номеров строк:

~$ raku -ne 'BEGIN my $i; say ++$, " => ",  m:overlap/ [ ^ ":" || "::" || ":" $ ] { ++$i } /; END say "total blank fields: $i";'  file
1 => ()
2 => ()
3 => (｢::｣)
4 => ()
5 => (｢::｣)
6 => (｢::｣ ｢::｣)
7 => (｢::｣)
8 => ()
9 => (｢::｣)
total blank fields: 6

https://raku.org

Как посчитать пустые поля в файле с разделителями в Unix

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Использование awk

Использование sed и wc

Использование bash

Использование Miller

Заключение