Вопрос или проблема
При попытке выполнить OCR для pdf-файла я получил сообщение об ошибке, что “Acrobat не смог выполнить распознавание (OCR) на этой странице, потому что Эта страница содержит рендерируемый текст”.
Я искал, что такое рендерируемый текст, и нашел старый пост, объясняющий, что рендерируемый текст – это векторные формы над изображением, ссылка.
Когда я копировал текст из файла в документ Word, я получал только неразборчивые символы.
Возможно ли извлечь шрифт из pdf с рендерируемым текстом или извлечь векторные формы и создать из этого шрифт?
PDF не является форматом “документа”, PDF – это формат для отображения печатной страницы. Он содержит команды, которые указывают, какие графические элементы разместить на странице. Многие из этих элементов являются глифами (элементарными символами, которые составляют буквы), взятыми из некоторых шрифтов. Эти глифы могут соответствовать или не соответствовать (прямо) какой-то последовательности символов, которые вы можете скопировать и вставить или поместить в документ Word. PDF может содержать дополнительные таблицы для шрифтов, которые описывают это соответствие.
Графические элементы также могут быть изображениями, например, изображением отсканированной страницы.
Таким образом, если Acrobat говорит “эта страница содержит рендерируемый текст”, это означает “эта страница не является изображением отсканированной страницы. Это набор глифов. Я не могу выполнить OCR для них, потому что это не изображение”.
Когда вы копируете это в документ Word, и таблицы соответствий отсутствуют или кодировка нестандартная, результатом является бессмыслица, потому что у компьютера нет возможности угадать, какой глиф или комбинация глифов соответствует какому символу.
Возможно ли извлечь шрифт из pdf с рендерируемым текстом или извлечь векторные формы и создать из этого шрифт?
Да, извлечь файл шрифта легко. Ознакомьтесь, например, с mutools. Вам все равно понадобится приложение, которое сможет работать с этим файлом шрифта.
Лучший способ обойти рендерируемый текст и иметь возможность использовать OCR – это напечатать документ в PDF. (Нажмите ‘Печать’, перейдите в принтеры и выберите ‘Печать в PDF’ из выпадающего меню). Новый pdf будет иметь распознаваемый текст. Обратите внимание, что вам, возможно, придется выбрать ‘Печать как изображение’.
Ответ или решение
Что такое рендеруемый текст в PDF-документе?
Рендеруемый текст в PDF-документе — это текстовая информация, представляемая в виде векторных графических элементов (глифов), а не как набор стандартных символов, которые можно копировать и вставлять. Этот термин используется для описания ситуации, когда текст на странице не является растровым изображением, а представляет собой визуальные символы, которые могут быть недоступны для обычных операций копирования или обработки. Когда вы пытаетесь выполнить оптическое распознавание символов (OCR) на PDF-документе с рендеруемым текстом, такая ошибка, как "Acrobat не смог выполнить распознавание (OCR) на этой странице, потому что на странице содержится рендеруемый текст", указывает на то, что Acrobat видит текст как графику, а не как текстовые данные.
Как устроен PDF?
PDF (Portable Document Format) — это формат, разработанный для точного отображения документа в любой среде, включая различные операционные системы и устройства. Он содержит команды и описания, которые определяют, как разместить различные графические элементы на странице. Эти элементы могут включать:
- Глифы, представляющие собой символы шрифта.
- Изображения, такие как растровые копии страниц.
- Векторные графические объекты, которые могут включать линии, фигуры и другие формы.
Проблема, с которой вы столкнулись, возникает из-за того, что рендеруемый текст в PDF-документе не может быть обработан OCR, поскольку он представлен в форме графики, а не в виде знаков, которые можно было бы интерпретировать по стандарту символов.
Почему при копировании текста возникают проблемы?
Когда вы пытаетесь скопировать текст из PDF-документа с рендеруемым текстом, вы получаете нечитаемые символы из-за отсутствия соответствующих таблиц шрифтов или неправильной кодировки. На уровне приложения PDF может не содержать указаний о том, как правильно связать глифы с их текстовыми аналогами. Таким образом, вы сталкиваетесь с проблемой, когда программы, не имеющие необходимых данных о шрифте, отображают лишь набор непонятных символов.
Можно ли извлечь шрифт из PDF-документа?
Да, извлечение шрифта из PDF возможен, и существует множество инструментов, таких как MuPDF, которые позволяют это сделать. Однако, даже если вам удастся извлечь шрифт, для корректной работы с ним потребуется программа, поддерживающая этот формат шрифта.
Альтернативные способы работы с рендеруемым текстом
Если вам необходимо выполнить OCR на документе, содержащем рендеруемый текст, одним из упрощённых решений будет «печать» PDF-документа в новый PDF. Это можно сделать следующим образом:
- Откройте PDF в любом просмотрщике.
- Выберите опцию «Печать».
- В качестве принтера выберите «Печать в PDF» и запустите процесс.
- В некоторых случаях может потребоваться выбрать опцию «Печать как изображение».
Этот метод создаст новый PDF, где текст будет представлен привычным образом, что позволит использовать функции OCR для дальнейшей работы с документом.
Заключение
Рендеруемый текст в PDF-документах представляет собой серьезную преграду для выполнения OCR и других операций, связанных с текстом. Понимание принципов работы формата PDF и специфики работы с рендеруемым текстом позволяет лучше управлять документами и находить оптимальные пути их обработки и использования.