Утилита для извлечения изображений из PDF-файлов на основе изображений (предпочтительно на базе Linux).

Вопрос или проблема

Вывод pdfimages будет представлять собой изображение целой страницы в случае неиндексируемых, основанных на изображениях PDF-файлов. Рассмотрим, например:

https://www.nysedregents.org/ushistorygov/Archive/20000126exam.pdf

какая утилита обнаружит карикатуры на страницах 6 и 7?

lbrtchx

Ответ или решение

Для извлечения изображений из изображений на PDF-файлах (например, из не ищущих PDF-документов, состоящих только из изображений), вы можете использовать утилиту pdfimages, которая является частью пакета Poppler-utils. Однако, имейте в виду, что pdfimages предназначен для извлечения отдельных изображений из страниц PDF-файлов, и он не создает изображение страницы в целом. Для решения вашей задачи вам может понадобиться использовать другие инструменты в дополнение к pdfimages.

В качестве альтернативного подхода, чтобы извлечь изображения или всё содержимое страниц, вы можете воспользоваться следующими утилитами:

1. pdfimages

Это утилита, которая позволяет извлекать изображения непосредственно из PDF-документа:

pdfimages -all yourfile.pdf output_prefix

Этот командный файл создаст отдельные файлы изображений (например, output_prefix-000.png, output_prefix-001.png и т.д.) для всех изображений, содержащихся в yourfile.pdf. Однако в случае неформатированного PDF-это могут быть не все графические элементы, такие как рисунки.

2. pdftocairo

Если на страницах содержатся векторные изображения или вам нужно создать изображения страниц в различных форматах (например, PNG, JPEG), вы можете использовать pdftocairo, которая также входит в состав Poppler-utils:

pdftocairo -png -r 300 yourfile.pdf output_prefix

В этом случае у вас будут изображения страниц в формате PNG в указанной папке (например, output_prefix-1.png, output_prefix-2.png и т.д.).

3. ImageMagick

Для более обширной обработки изображений вы можете использовать ImageMagick. Обычно, вы сначала конвертируете PDF в набор изображений, а затем уже обрабатываете их, если необходимо:

convert -density 300 yourfile.pdf -quality 100 output_prefix.png

Выделение конкретных страниц

Если вас интересуют только страницы 6 и 7, вы можете указать диапазон страниц:

pdftocairo -png -r 300 -f 6 -l 7 yourfile.pdf output_prefix

Каждая из вышеперечисленных утилит позволяет вам извлекать и конвертировать изображения из PDF, и вы можете выбрать ту, которая лучше всего соответствует вашим требованиям.

Таким образом, для вашей задачи по извлечению картинок на страницах 6 и 7 указанного PDF, рекомендуем воспользоваться утилитой pdftocairo.

Оцените материал
Добавить комментарий

Капча загружается...