как удалить символ новой строки с помощью Sed или perl [дубликат]

Question 1

У меня есть большой файл с данными XML, содержащий строки, подобные

<fonts> часть данных </fonts>
<fonts> часть данных </fonts>
<fonts> часть
 данных </fonts>
<fonts> часть данных </fonts>
<fonts> часть данных </fonts>

Между ними я получаю символ новой строки…

$>uname -a
SunOS ******* 5.11 SunOS_Development

Question 2

Дан файл XML file.xml:

<?xml version="1.0"?>
<root>
  <fonts> часть данных </fonts>
  <fonts> часть данных </fonts>
  <fonts> часть
данных </fonts>
  <fonts> часть данных </fonts>
  <fonts> часть данных </fonts>
</root>

Вы можете применить функцию XPath normalize-spaces ко всем узлам fonts с помощью XMLStarlet:

$ xmlstarlet ed -u '//fonts' -x 'normalize-space()' file.xml
<?xml version="1.0"?>
<root>
  <fonts>некоторая часть данных</fonts>
  <fonts>некоторая часть данных</fonts>
  <fonts>некоторая часть данных</fonts>
  <fonts>некоторая часть данных</fonts>
  <fonts>некоторая часть данных</fonts>
</root>

Это удаляет лишние пробелы и заменяет все другие пробелы на одиночные пробелы во всех узлах fonts.

Если вы хотите только удалить новые строки из данных узлов fonts:

$ xmlstarlet ed -u '//fonts' -x 'translate(., "'$'\n''", "")' file.xml
<?xml version="1.0"?>
<root>
  <fonts> часть данных </fonts>
  <fonts> часть данных </fonts>
  <fonts> часть данных </fonts>
  <fonts> часть данных </fonts>
  <fonts> часть данных </fonts>
</root>

Это зависит от того, что ваша оболочка заменяет $'\n' на буквальный символ новой строки.

Question 3

Стандартный метод – это команда tr. XML может иметь (и обычно имеет) очень длинные строки, потому что пробелы не являются частью спецификации XML. Большинство текстовых команд Unix основаны на строках, и очень длинные строки, скорее всего, создадут проблемы, такие как sed или awk (в Linux это обычно просто приводит к значительным потерям производительности). Команда tr не должна заботиться о строках, поэтому она может хорошо обрабатывать эти данные.

tr -d '[\r\n]' <inFile > outFile

Тем не менее, меня беспокоит ваша третья строка “fonts”, которую вы показываете как разрезанную. Удаление этой новой строки сблизит тексты без каких-либо пробелов. Я знаю, что файлы Excel .xlsx используют новые строки (и символы возврата каретки), когда в ячейке есть многострочный текст.

Почему вам нужно удалять пробелы? Это не должно вызывать проблем. На самом деле, я обычно запускаю XML через “xmllint –format”, потому что это делает его читаемым в редакторах. Он читается обратно в Excel без проблем: я красиво отформатировал XML, импортировал его в Excel, записал обратно в длинные строки и проверил контрольную сумму, и она оказалась идентичной.

Вы можете избежать проблемы с длинными строками в awk, определив RS = “>”. Всегда достаточно > в XML, чтобы избежать длинных строк. Затем awk видит каждую XML-сущность на отдельной строке, с максимум одним текстовым элементом перед ней. Там, где есть настоящие новые строки, они останутся в тексте, поэтому вы увидите ваш третий ввод как

<fonts>
некоторая часть\nданных</fonts>

Затем вы можете заменить каждый NL или CR/LF на ПРОБЕЛ и сохранить формулировку.

Если вам нужен этот код более подробно, спрашивайте.

Если вам интересно, что Excel имеет общего с XML: файл Excel (.xlsx, .xlsm и т.д., а не .xls) – это просто zip-архив множества XML-файлов.

Question 4

Мы не можем использовать sed s'/\n/ /g'

sed работает с текстом, разделенным новыми строками. Когда каждый элемент ввода проходит через выражения, новая строка уже была удалена, поэтому выражение никогда не сработает. По определению, вы никогда не сможете получить новую строку посредине строки. (Проверено.)

В awk вы можете переключить символ RS ‘конец строки’, чтобы использовался какой-то другой символ, и тогда новые строки останутся нетронутыми. Или (в gawk) вы можете сделать RS пустым, и тогда весь файл будет считаться одной длинной строкой. Я не могу придумать другие стандартные команды, которые позволяют это сделать.

Чтобы обработать новые строки в sed, вам нужно использовать вспомогательное пространство и понять, как сшить это с следующей строкой в зависимости от того, как совпадают условия конца/начала (например, оба текста, тег следует за текстом и т. д.).

Кроме того, у OP SunOS 5.11, и я бы поставил доллар на то, что у него есть ограничение длины строки, например, 2048 символов. Так что общий XML его сломает. Solaris awk ломается на 6144 (6K) символах.

Я даже не уверен, что этот файл будет корректным XML. OP говорит нет о необходимом (отсутствующем, предположительно мертвом) теге, так что могут быть и другие самодельные проблемы.

Question 5

Мы можем использовать sed 's/\n/ /g'.

Обратите внимание на пробел после второго прямого слэша, вышеприведенное выражение заменяет все символы новой строки на пробел.

как удалить символ новой строки с помощью Sed или perl [дубликат]

Вопрос или проблема

Ответ или решение

Проблема

Решение с помощью `sed`

Решение с помощью `perl`

Примечания

Заключение

как удалить символ новой строки с помощью Sed или perl [дубликат]

Вопрос или проблема

Ответ или решение

Проблема

Решение с помощью sed

Решение с помощью perl

Примечания

Заключение

Решение с помощью `sed`

Решение с помощью `perl`