Искажённый отсканированный PDF

Вопрос или проблема

Я недавно отсканировал книгу в PDF-файл на 600 страниц. Однако страницы находятся в случайном наклоне или повороте по часовой стрелке или против часовой стрелки. Есть ли программное обеспечение, которое может это автоматически исправить? Я знаю, что Acrobat Pro может это сделать, но есть ли бесплатное программное обеспечение или скрипт для Ubuntu?

Deskew

Deskew — это инструмент командной строки для исправления наклона отсканированных текстовых документов. Он использует преобразование Хафа для обнаружения “текстовых линий” на изображении. В результате вы получаете изображение, повернутое так, чтобы линии были горизонтальными.

Установка: Скачайте последнее обновление. Он написан на Pascal, но, похоже, хорошо поддерживается.

pagetools: Инструменты для определения макета страниц

Автоматическое исправление наклона и определение ограничивающих рамок для отсканированных изображений страниц

sudo apt install pagetools

Последнее обновление: 22-03-2013

Вы имеете в виду искривленный — как в случае, когда он растянут каким-либо образом, например так:

параллелограмм

— или повернутый?

Я предполагаю, что вы имеете в виду повернутый, так как, если честно, я не думаю, что ваш сканер может так сильно испортить изображение!

Если вам просто нужно повернуть, я бы рекомендовал PDF-Shuffler, графическую программу, которая может значительно упростить процесс прохождения через каждую страницу и поворота их по мере необходимости. Обратите внимание на это. Я уверен, что есть и другие программы, которые могут сделать то же самое.

К сожалению, я не знаю программного обеспечения, которое могло бы просмотреть все страницы в вашем PDF и определить, какие из них нужно преобразовать каким-либо сложным образом, не говоря уже о повороте.

ИЗМЕНЕНИЕ: Если ваш файл был исходным PDF, который можно было бы конвертировать в формат postscript (.ps), я думаю, возможно, есть способ автоматически повернуть страницы с помощью ghostscript. Однако, насколько я знаю, вы не можете сделать это со сканированными страницами, поскольку функция автоповорота зависит от интерпретации направления текста, которое может прийти только из исходного документа PDF или PS. Я не совсем уверен… Я изучу этот вопрос немного подробнее.

Это почти автоматизировано, начиная с многопользовательского .pdf:

  • Установите scantailor-advanced

    • Откройте Gnome Software (установите, если отсутствует) / [Это не работает в App Center/Snap store]
    • Ищите scantailor, выберите тот, у которого источник Ubuntu (snap) (избегайте flathub)
  • Разделите pdf на .png файлы

gs -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300 -dUseCropBox -sOutputFile=filename-%03d.png multipage.pdf
  • Запустите scantailor-advanced

    • выберите для “Нового проекта” папку с .png файлами
    • В левом меню внимательно пройдите через каждую опцию по очереди и определите настройки, нажав на заголовок, а затем на иконку воспроизведения
    • Используйте “применить/изменить” “Все страницы”, особенно в последнем варианте “Вывод”
  • Перейдите в папку вывода с .tif файлами

  • Объедините их с помощью

    convert *.tif  Desired_Name.pdf
    
  • Если эта команда не выполняется из-за наличия более 50 страниц, используйте что-то вроде этого: https://pastebin.com/pTsggARx

Ответ или решение

Чтобы автоматически исправить проблему со skewed (кривыми) или покрытыми текстом страницами в отсканированном PDF-файле на Ubuntu, вы можете использовать несколько инструментов и программ. Вот пошаговое руководство:

1. Используйте Deskew

Deskew – это инструмент командной строки для автоматического исправления наклона страниц отсканированных документов. Он использует метод Хафа для обнаружения текстовых линий на изображении и может поворачивать их так, чтобы линии были горизонтальными.

  • Установка: Загрузите последнюю версию с GitHub.
  • Команда для запуска:
    deskew input.png -o output.png

2. Используйте PageTools

Еще один инструмент, который вы можете установить, – это PageTools, который автоматически определяет наклон страниц и граничные рамки.

  • Установка:
    sudo apt install pagetools
  • Примечание: Этот инструмент не обновлялся с 2013 года, но все еще работает.

3. Используйте Scantailor-Advanced

Это приложение доступно для более сложной обработки отсканированных документов, включая коррекцию наклона.

  • Установка: Установите Scantailor-Advanced через Gnome Software.

  • Порядок действий:

    1. Разделите ваш PDF на PNG:
      gs -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300 -dUseCropBox -sOutputFile=filename-%03d.png multipage.pdf
    2. Запустите Scantailor-Advanced:
      • Выберите папку с PNG файлами для нового проекта.
      • Пройдите через каждую настройку в меню слева, применяя их к "всем страницам".
    3. Сохраните обработанные TIFF файлы.
  • Объедините TIFF файлы обратно в PDF:

    convert *.tif Desired_Name.pdf

Если у вас много страниц и возникает ошибка, попробуйте использовать скрипт, приведенный на Pastebin.

Заключение

В зависимости от ваших требований, вы можете выбрать любой из описанных выше методов. Эти инструменты позволяют автоматизировать процесс исправления при необходимости. Если при использовании этих инструментов у вас возникнут вопросы, пожалуйста, не стесняйтесь задать их.

Оцените материал
Добавить комментарий

Капча загружается...