Поиск уникальных записей в файле

На чтение 3 мин Опубликовано 16.01.2025

Вопрос или проблема

Я использую Arch Linux/Debian Linux и хочу получить список уникальных “идентификаторов” в ASCII текстовом файле. Вот фрагмент данных, которые я хочу сократить:

… (Получено от VRW): wind …

… (Получено от 1a00): air_ …

… (Получено от 5710): air_ …

… (Получено от ####): air_ …

… (Получено от 15d8): air_ …

… (Получено от ####): air_ …

… (Получено от 6e9e): baro …

… (Получено от 6e9e): volt …

… (Получено от 6e9e): wind …

… (Получено от 6e9e): air_ …

Из-за большого размера файла и многочисленных дублирующихся “идентификаторов”, я хочу вывести только уникальные идентификаторы, чтобы результат выглядел так:

… (Получено от VRW): wind …

… (Получено от 1a00): air_ …

… (Получено от 5710): air_ …

… (Получено от ####): air_ …

… (Получено от 15d8): air_ …

… (Получено от 6e9e): baro …

Еще лучше было бы просто получить список уникальных идентификаторов, таких как 15d8, 6e9e, VRW и т.д. Но я подозреваю, что это было бы намного сложнее сделать.

Из предложений из предыдущих похожих вопросов я попробовал:

grep “(Received from” datafile.txt

и получил огромный список идентификаторов, большинство из которых повторяются.

Также я пробовал:

grep “(Received from” datafile.txt | sort -u

но не мог сказать, имело ли это какое-либо значение.

Также я пробовал:

parallel –tag –lb grep “Received from” {} | perl -ne ‘$seen{$_}++ or print;’ ::: Data1.txt

что, вероятно, показывает мой уровень невежества в этих вопросах.

Какие-нибудь предложения?!

Спасибо ОГРОМНОЕ!!

Ответ или решение

Поиск уникальных записей в текстовом файле – это задача, с которой часто сталкиваются пользователи Linux, особенно когда дело касается обработки больших объемов данных. Рассмотрим, как с этим справиться, исходя из вашего запроса.

Теория:

В контексте вашей задачи, мы имеем дело с текстовыми файлами, содержащими строки с идентификаторами вида "(Received from XXXXX):". Цель состоит в том, чтобы выделить именно уникальные идентификаторы. Стандартные утилиты Linux, такие как grep, sort и uniq, позволяют автоматизировать этот процесс. Однако, у каждой из них есть свои особенности использования.

grep – позволяет фильтровать строки, соответствующие шаблону.
sort – упорядочивает строки ввода.
uniq – удаляет дубликаты, но работает только с последовательно идущими одинаковыми строками.

Для решения вашей задачи важно правильно использовать сочетание этих утилит.

Пример:

У вас уже есть команда grep "(Received from" datafile.txt, которая извлекает все строки с искомыми идентификаторами. Однако она не удаляет дубли. Команда sort -u должна упорядочить и удалить дубли, но для этого сначала необходимо корректно извлечь идентификаторы.

Применение:

Извлечение уникальных строк с идентификаторами:
```
grep "(Received from" datafile.txt | sort | uniq
```
Данная команда сортирует строки, а uniq удаляет дубликаты.
Извлечение только уникальных идентификаторов:

Если вам нужно только список уникальных идентификаторов, без остальной информации, можно воспользоваться так:
```
grep -oP "(?<=Received from\s)[^\)]+(?=):" datafile.txt | sort | uniq
```
- Здесь используется grep с флагом -oP для поиска с использованием регулярных выражений Perl.
- (?<=Received from\s)[^\)]+(?=): — регулярное выражение, которое извлекает часть строки после "Received from" и до двоеточия.

Эти команды должны помочь решить вашу задачу, получив перечень уникальных идентификаторов. Убедитесь в том, что файл обработан в кодировке, совместимой с ASCII, чтобы избежать лишних ошибок. Если у вас есть какие-то специфические ограничения или дополнительные параметры задачи, сообщите об этом для более точной настройки команд.