Как выполнить поиск текста с помощью grep в файле, кодированном в ISO-8859-1?

Question 1

Я пытаюсь использовать grep для поиска текстовых шаблонов в файле, кодированном в ISO-8859-1:

https://github.com/jfoclpf/words-pt

Когда я выполняю поиск, все совпадения возвращаются, но акцентированные символы убираются. Например, если я хочу найти все слова, оканчивающиеся на -ese:

$ LC_ALL=pt_PT.ISO-8859-1  grep -a ese\$  wordsList

Это приводит к 58 совпадениям. Одним из совпадений является слово hipótese, но при выводе оно отображается как hiptese (отсутствует символ ó).

Как я могу предотвратить удаление акцентированных символов в выводе grep?

Question 2

Как я могу предотвратить удаление акцентированных символов в выводе grep?

grep сам по себе не удаляет акцентированные символы, он выводит строки, совпадающие с теми, что находятся во входном файле. Это ваш терминал (эмулятор терминала) не интерпретирует акцентированные символы в кодировке ISO-8859-1 как что-то, что он должен показывать как акцентированные символы.

Ваш терминал, скорее всего, ожидает UTF-8. Остальная часть этого ответа предполагает, что терминал действительно ожидает UTF-8, а локаль установлена в something.UTF-8 (например, pt_PT.UTF-8). Так должно быть во многих современных системах, подобных Unix, по умолчанию, особенно в Linux.

Возможные решения:

Возможно, вы сможете настроить ваш эмулятор терминала на ISO-8859-1, выполнить команду и настроить обратно на UTF-8. (например, в konsole выберите в меню: View, Set Encoding; и т.д.). Я бы не назвал это правильным способом, однако.

Либо преобразуйте вывод grep в UTF-8 на лету:

LC_ALL=pt_PT.ISO-8859-1 grep -a ese\$ wordsList | iconv -f ISO-8859-1 -t UTF-8

Если вы планируете работать с файлом часто, преобразуйте его содержимое в UTF-8*:
```
<wordsList iconv -f ISO-8859-1 -t UTF-8 >wordsList-utf8
```
Затем работайте с новым файлом без ухищрений, например:
```
grep ese\$ wordsList-utf8
```
Теперь вы даже можете искать акцентированные символы обычным способом, например:
```
grep ó wordsList-utf8
```
В общем случае эквивалентность Unicode может быть проблемой; но здесь, поскольку файл является конвертированным из ISO-8859-1, я ожидаю согласованности: каждая ó будет U+00F3 (0xC3B3 в UTF-8, вышеупомянутый grep его найдет), а не U+006F за которой следует U+0301 (0x6FCC81 в UTF-8, вышеупомянутый grep его не найдет); аналогично для других акцентированных символов.

* Я заметил, что вы использовали grep -a, как если бы вам нужно было, чтобы grep обрабатывал бинарные файлы как текст. Если ваш wordsList действительно не является текстом, конвертация всего файла в UTF-8 может завершиться неудачей или дать вам неверно сформированный нетекстовый файл. Так как вы не указали определенный файл, я не могу исследовать это дальше, не предполагая. Я полагаю, вы имели в виду файл, указанный под “just the file”, т.е. файл, который можно извлечь из wordsList.zip. С этим конкретным файлом мне не нужно -a для grep, при условии, что я указываю grep использовать правильную кодировку (это то, что делает LC_ALL=pt_PT.ISO-8859-1).

Как выполнить поиск текста с помощью grep в файле, кодированном в ISO-8859-1?

Вопрос или проблема

Ответ или решение

Теория

Кодировки: Основы

Проблемы с несовпадением кодировок

Пример

Применение

Заключение