Как преобразовать данные, разделенные табуляцией, в данные, разделенные запятыми?

Question 1

Я запрашиваю список снимков EC2 с помощью инструмента командной строки EC2 от Amazon:

ec2-describe-snapshots -H --hide-tags > snapshots.csv

Данные выглядят примерно так:

SnapshotId      VolumeId        StartTime   OwnerId         VolumeSize  Description
snap-00b66464   vol-b99a38d0    2012-01-05  5098939         160         my backup

Как я могу перехватить данные перед перенаправлением в snapshots.csv и выполнить следующие действия:

заменить “табуляции” на запятые
обернуть значения в кавычки
если значение состоит только из цифр, добавьте к нему префикс =, чтобы Excel воспринимал его как текст — например, OwnerId должен быть "=5098939” (этот пункт не обязателен, если его нельзя выполнить напрямую и потребуется вместо этого файл скрипта или функция)

желаемый вывод:

"SnapshotId","VolumeId","StartTime","OwnerId","VolumeSize","Description"
"snap-00b66464","vol-b99a38d0","2012-01-05","=5098939","=160","my backup"

Question 2

#!/usr/bin/awk -f

BEGIN { FS = "\t"; OFS = "," }
{
    for(i = 1; i <= NF; i++) {
        if ($i + 0 == $i) { $i = "=" $i }
        else gsub(/"/, "\"\"", $i);
        $i = "\"" $i "\""
    }
    print
}

Предположим, что вы назовете это convert.awk, вы можете вызвать его следующим образом:

ec2-describe-snapshots -H --hide-tags | awk -f convert.awk > snapshots.csv

или (после добавления прав на выполнение, chmod a+x convert.awk)

ec2-describe-snapshots -H --hide-tags | ./convert.awk > snapshots.csv

Это создаст новую колонку для каждой табуляции, что сохранит колонку комментариев вместе (если она не содержит табуляций), но добавит пустые колонки (так выглядит ваш пример вывода, так что, возможно, вы именно это и хотите).
Если вы хотите разбивать по всем пробелам (это уберет лишние табуляции внутри таблицы, но сделает каждое слово в описании новой колонкой), уберите оператор FS="\t";.

Для будущих поколений, если вам не нужны ", = или встроенные пробелы, вы можете сделать его однострочником:

awk -v OFS=, '{$1=$1;print}'

Question 3

Вот решение на Perl. Это может быть возможно с помощью sed/awk, но проверка на число, скорее всего, сделает его довольно тяжелым.

ec2-describe-snapshots -H --hide-tags | \
perl -e 'use Scalar::Util qw(looks_like_number);
         while (chomp($line = <STDIN>)) {
             print(join(",", map { "\"" . (looks_like_number($_) ? "=$_" :
                                           do {s/"https://unix.stackexchange.com/""/g; $_}) . "\"" }
             split(/\t/, $line)) . "\n");
         }' \
> snapshots.csv

Question 4

Если вам просто лень, как и мне, и вы хотите сделать все одной командой без написания скрипта, вот как я бы это сделал.

ec2-describe-snapshots -H --hide-tags | sed -e 's/^I/","/g' | sed -e 's/^/"https://unix.stackexchange.com/" | sed -e 's/$/"https://unix.stackexchange.com/"> snapshots.csv

^I создается нажатием ctrl+v i.

Первая sed меняет все табуляции на ",". Вторая sed вставляет " в начало каждой строки, а последняя sed вставляет закрывающую " в конце каждой строки.

Question 5

Еще одно решение на Perl:

#!/usr/bin/perl -wln
use strict;

my($n,$s);chomp();
for $s ( split(/\t/,$_) )
{
    $s="=".$s if ($s =~ /^\d+$/);
    $n.= '"'.$s.'",';
}
$n =~ s/(.*),/$1/;print $n;

вызовите с помощью ec2-describe-snapshots -H --hide-tags | /var/tmp/script.pl > output.txt

Question 6

sed — это наиболее полезная утилита в Linux, которую я когда-либо встречал.

sed 's/\t/","/g' TabSeparatedValues.txt > CommaSeparatedValues.csv
sed -i 's/.*/"&"https://unix.stackexchange.com/" CommaSeparatedValues.csv

Первая команда заменяет все табуляции в каждой строке на запятые и кавычки. Вторая команда вставляет кавычки в начало и конец каждой строки, чтобы каждое значение было в кавычках, что позволяет запятым быть частью значения.

Question 7

Это может вам помочь:

sed 's/\t\+/,/g;s/^\|$/"/g;s/,/"&"/g;s/"\([0-9]\+\)"https://unix.stackexchange.com/"=\1"/g' file

Question 8

Сначала добавьте символ = в начало каждого числового поля и преобразуйте в CSV с помощью Miller (mlr):

$ mlr --t2c put 'for (k,v in $*) { is_numeric(v) { $[k] = "=" . v } }' file
SnapshotId,VolumeId,StartTime,OwnerId,VolumeSize,Description
snap-00b66464,vol-b99a38d0,2012-01-05,=5098939,=160,my backup

Поскольку Miller никогда не обрамляет поля в кавычки, если это не необходимо, мы используем csvformat из пакета csvkit для повторного форматирования вывода CSV от Miller с полностью заключенными в кавычки полями:

$ mlr --t2c put 'for (k,v in $*) { is_numeric(v) { $[k] = "=" . v } }' file | csvformat -U2
"SnapshotId","VolumeId","StartTime","OwnerId","VolumeSize","Description"
"snap-00b66464","vol-b99a38d0","2012-01-05","=5098939","=160","my backup"

Как преобразовать данные, разделенные табуляцией, в данные, разделенные запятыми?

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Подход с использованием AWK

Подход с использованием Perl

Sed и другие подходы

Заключение