Вопрос или проблема
Вывод pdfimages будет представлять собой изображение целой страницы в случае неиндексируемых, основанных на изображениях PDF-файлов. Рассмотрим, например:
https://www.nysedregents.org/ushistorygov/Archive/20000126exam.pdf
какая утилита обнаружит карикатуры на страницах 6 и 7?
lbrtchx
Ответ или решение
Для извлечения изображений из изображений на PDF-файлах (например, из не ищущих PDF-документов, состоящих только из изображений), вы можете использовать утилиту pdfimages
, которая является частью пакета Poppler-utils
. Однако, имейте в виду, что pdfimages
предназначен для извлечения отдельных изображений из страниц PDF-файлов, и он не создает изображение страницы в целом. Для решения вашей задачи вам может понадобиться использовать другие инструменты в дополнение к pdfimages
.
В качестве альтернативного подхода, чтобы извлечь изображения или всё содержимое страниц, вы можете воспользоваться следующими утилитами:
1. pdfimages
Это утилита, которая позволяет извлекать изображения непосредственно из PDF-документа:
pdfimages -all yourfile.pdf output_prefix
Этот командный файл создаст отдельные файлы изображений (например, output_prefix-000.png
, output_prefix-001.png
и т.д.) для всех изображений, содержащихся в yourfile.pdf
. Однако в случае неформатированного PDF-это могут быть не все графические элементы, такие как рисунки.
2. pdftocairo
Если на страницах содержатся векторные изображения или вам нужно создать изображения страниц в различных форматах (например, PNG, JPEG), вы можете использовать pdftocairo
, которая также входит в состав Poppler-utils
:
pdftocairo -png -r 300 yourfile.pdf output_prefix
В этом случае у вас будут изображения страниц в формате PNG в указанной папке (например, output_prefix-1.png
, output_prefix-2.png
и т.д.).
3. ImageMagick
Для более обширной обработки изображений вы можете использовать ImageMagick
. Обычно, вы сначала конвертируете PDF в набор изображений, а затем уже обрабатываете их, если необходимо:
convert -density 300 yourfile.pdf -quality 100 output_prefix.png
Выделение конкретных страниц
Если вас интересуют только страницы 6 и 7, вы можете указать диапазон страниц:
pdftocairo -png -r 300 -f 6 -l 7 yourfile.pdf output_prefix
Каждая из вышеперечисленных утилит позволяет вам извлекать и конвертировать изображения из PDF, и вы можете выбрать ту, которая лучше всего соответствует вашим требованиям.
Таким образом, для вашей задачи по извлечению картинок на страницах 6 и 7 указанного PDF, рекомендуем воспользоваться утилитой pdftocairo
.