Как отобразить все строки, в которых в определенном столбце содержатся дублирующиеся значения?

Question 1

Я начинающий в Unix, из скрипта Unix ниже:

EmpNo#Email#Name#JobLevel#Experience
641357#Amrit_Mohanty#Amrit Mohanty#3#2
678522#Puneet_Mishra#Puneet Mishra#3#1
670242#Vikas_Bharti#Vikas Bharti#3#1.5
661822#Aravind_Raghavan#Aravind Raghavan#3#1.5
706209#Sankavi.Boopathy#Sankavi Boopathy#3#0.5
706452#Raja.Ravi#Raja Ravi#3#0.5

Мне нужно знать, как получить все строки, в которых в столбце Experience содержатся дублированные значения. Я использую sort -t '#' -k1,5 employee.txt | uniq -d, но это не работает.

Ожидаемый результат приведен ниже:

670242#Vikas_Bharti#Vikas Bharti#3#1.5
661822#Aravind_Raghavan#Aravind Raghavan#3#1.5
706209#Sankavi.Boopathy#Sankavi Boopathy#3#0.5
706452#Raja.Ravi#Raja Ravi#3#0.5

Если вы видите, значение из последнего столбца дублируется. Спасибо за вашу поддержку. Очень признателен

Question 2

Прочитайте файл дважды, используйте ассоциативный массив с последним полем в качестве ключа для подсчета количества раз, когда вы видели каждое последнее поле, а затем при втором прохождении файла выведите строку, если значение, связанное с последним полем в массиве, больше 1:

$ awk -F'#' 'NR==FNR{a[$NF]++; next} a[$NF]>1' file file
670242#Vikas_Bharti#Vikas Bharti#3#1.5
661822#Aravind_Raghavan#Aravind Raghavan#3#1.5
706209#Sankavi.Boopathy#Sankavi Boopathy#3#0.5
706452#Raja.Ravi#Raja Ravi#3#0.5

Объяснение

awk -F'#' запускает awk, используя # в качестве разделителя полей ввода.
NR==FNR{a[$NF]++; next}: NR — текущий номер строки, а FNR — текущий номер строки в файле, который в данный момент читается. При передаче более чем одного файла в awk эти две переменные будут равны только при чтении первого файла. Поэтому блок кода будет выполняться только для первого файла. a[$NF]++; next: переменная NF указывает количество полей, поэтому $NF — это значение последнего поля. Мы используем это в качестве ключа в массиве a и увеличиваем связанное значение на единицу. Это подсчитывает количество раз, когда было замечено каждое последнее поле. Команда next переходит к следующей строке, чтобы мы не выполняли оставшуюся часть скрипта для этой строки.
a[$NF]>: в awk, когда что-то оценивается как истинное, действие по умолчанию — вывести текущую строку. Поскольку это выполняется только для второго файла (в вашем случае, второй раз, когда мы читаем один и тот же файл) из-за next в блоке NR==FNR, и учитывая, что это будет истинным только если последнее поле было встречено более одного раза при первом проходе, это приводит к выводу тех строк, чье последнее поле было встречено более одного раза.

Question 3

Если (как кажется) это задание на дом, вероятно, предполагается, что вы решите его, используя базовые утилиты *nix, такие как awk, используя один из методов, показанных здесь:

Определите только дублированные записи из файла и выведите только дублированные записи в новый файл

Однако, если это реальное приложение, это, вероятно, легче всего будет решить, используя методы баз данных, подобные описанным здесь:

Как выбрать каждую строку, где значение столбца не является уникальным

Для вашего тривиального примера вы можете использовать csvsql из пакета csvkit на базе Python:

csvsql -y0 -I -d'#' --query '
  SELECT * FROM employee WHERE Experience IN (
    SELECT Experience FROM employee GROUP BY Experience HAVING COUNT(*) > 1
  )
' employee.txt
EmpNo,Email,Name,JobLevel,Experience
670242,Vikas_Bharti,Vikas Bharti,3,1.5
661822,Aravind_Raghavan,Aravind Raghavan,3,1.5
706209,Sankavi.Boopathy,Sankavi Boopathy,3,0.5
706452,Raja.Ravi,Raja Ravi,3,0.5

^{Одна из проблем вашего подхода ‘sort’ / ‘uniq’ заключается в том, что последний по умолчанию обнаруживает только уникальные (или дублированные) *строки*: хотя GNU реализует опцию `-f` для пропуска начальных полей, которая, по-видимому, жестко запрограммирована для использования разделителей пробелов (т.е. у нее нет аналога `-t` в команде `sort`). Вы можете заменить разделители `#` на пробелы, но вам придется “жонглировать” пробелами, которые уже существуют *внутри* полей. Вам также потребуется `-D`, а не `-d`, для вывода всех дубликатов. Итак, вам нужно будет}

сортировка по 5-му полю
замена вложенных пробелов в полях на другие однозначные символы
замена разделителей # на пробелы
выбор дубликатов, игнорируя первые 4 (теперь пробел-разделенные) поля
замена разделителей пробелов на #
обратная замена вложенных символов

например:

sort -t’#’ -nk5 employee.txt | tr ‘ #’ ‘@ ‘ | uniq -f4 -D | tr ‘ @’ ‘# ‘

Как отобразить все строки, в которых в определенном столбце содержатся дублирующиеся значения?

Вопрос или проблема

Объяснение

Ответ или решение

Теория

Компоненты

Пример

Применение

Метод с `awk`

Пояснение:

Альтернативный подход с `sort` и `uniq`

Пояснение:

Библиотеки и пакеты

Заключение

Как отобразить все строки, в которых в определенном столбце содержатся дублирующиеся значения?

Вопрос или проблема

Объяснение

Ответ или решение

Теория

Компоненты

Пример

Применение

Метод с awk

Пояснение:

Альтернативный подход с sort и uniq

Пояснение:

Библиотеки и пакеты

Заключение

Метод с `awk`

Альтернативный подход с `sort` и `uniq`