Вопрос или проблема
Я недавно отсканировал книгу в PDF-файл на 600 страниц. Однако страницы находятся в случайном наклоне или повороте по часовой стрелке или против часовой стрелки. Есть ли программное обеспечение, которое может это автоматически исправить? Я знаю, что Acrobat Pro может это сделать, но есть ли бесплатное программное обеспечение или скрипт для Ubuntu?
Deskew
Deskew — это инструмент командной строки для исправления наклона отсканированных текстовых документов. Он использует преобразование Хафа для обнаружения “текстовых линий” на изображении. В результате вы получаете изображение, повернутое так, чтобы линии были горизонтальными.
Установка: Скачайте последнее обновление. Он написан на Pascal, но, похоже, хорошо поддерживается.
pagetools: Инструменты для определения макета страниц
Автоматическое исправление наклона и определение ограничивающих рамок для отсканированных изображений страниц
sudo apt install pagetools
Последнее обновление: 22-03-2013
Вы имеете в виду искривленный — как в случае, когда он растянут каким-либо образом, например так:
— или повернутый?
Я предполагаю, что вы имеете в виду повернутый, так как, если честно, я не думаю, что ваш сканер может так сильно испортить изображение!
Если вам просто нужно повернуть, я бы рекомендовал PDF-Shuffler, графическую программу, которая может значительно упростить процесс прохождения через каждую страницу и поворота их по мере необходимости. Обратите внимание на это. Я уверен, что есть и другие программы, которые могут сделать то же самое.
К сожалению, я не знаю программного обеспечения, которое могло бы просмотреть все страницы в вашем PDF и определить, какие из них нужно преобразовать каким-либо сложным образом, не говоря уже о повороте.
ИЗМЕНЕНИЕ: Если ваш файл был исходным PDF, который можно было бы конвертировать в формат postscript (.ps), я думаю, возможно, есть способ автоматически повернуть страницы с помощью ghostscript. Однако, насколько я знаю, вы не можете сделать это со сканированными страницами, поскольку функция автоповорота зависит от интерпретации направления текста, которое может прийти только из исходного документа PDF или PS. Я не совсем уверен… Я изучу этот вопрос немного подробнее.
Это почти автоматизировано, начиная с многопользовательского .pdf:
-
Установите scantailor-advanced
- Откройте Gnome Software (установите, если отсутствует) / [Это не работает в App Center/Snap store]
- Ищите scantailor, выберите тот, у которого источник Ubuntu (snap) (избегайте flathub)
-
Разделите pdf на .png файлы
gs -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300 -dUseCropBox -sOutputFile=filename-%03d.png multipage.pdf
-
Запустите scantailor-advanced
- выберите для “Нового проекта” папку с .png файлами
- В левом меню внимательно пройдите через каждую опцию по очереди и определите настройки, нажав на заголовок, а затем на иконку воспроизведения
- Используйте “применить/изменить” “Все страницы”, особенно в последнем варианте “Вывод”
-
Перейдите в папку вывода с .tif файлами
-
Объедините их с помощью
convert *.tif Desired_Name.pdf
-
Если эта команда не выполняется из-за наличия более 50 страниц, используйте что-то вроде этого: https://pastebin.com/pTsggARx
Ответ или решение
Чтобы автоматически исправить проблему со skewed (кривыми) или покрытыми текстом страницами в отсканированном PDF-файле на Ubuntu, вы можете использовать несколько инструментов и программ. Вот пошаговое руководство:
1. Используйте Deskew
Deskew – это инструмент командной строки для автоматического исправления наклона страниц отсканированных документов. Он использует метод Хафа для обнаружения текстовых линий на изображении и может поворачивать их так, чтобы линии были горизонтальными.
- Установка: Загрузите последнюю версию с GitHub.
- Команда для запуска:
deskew input.png -o output.png
2. Используйте PageTools
Еще один инструмент, который вы можете установить, – это PageTools, который автоматически определяет наклон страниц и граничные рамки.
- Установка:
sudo apt install pagetools
- Примечание: Этот инструмент не обновлялся с 2013 года, но все еще работает.
3. Используйте Scantailor-Advanced
Это приложение доступно для более сложной обработки отсканированных документов, включая коррекцию наклона.
-
Установка: Установите Scantailor-Advanced через Gnome Software.
-
Порядок действий:
- Разделите ваш PDF на PNG:
gs -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300 -dUseCropBox -sOutputFile=filename-%03d.png multipage.pdf
- Запустите Scantailor-Advanced:
- Выберите папку с PNG файлами для нового проекта.
- Пройдите через каждую настройку в меню слева, применяя их к "всем страницам".
- Сохраните обработанные TIFF файлы.
- Разделите ваш PDF на PNG:
-
Объедините TIFF файлы обратно в PDF:
convert *.tif Desired_Name.pdf
Если у вас много страниц и возникает ошибка, попробуйте использовать скрипт, приведенный на Pastebin.
Заключение
В зависимости от ваших требований, вы можете выбрать любой из описанных выше методов. Эти инструменты позволяют автоматизировать процесс исправления при необходимости. Если при использовании этих инструментов у вас возникнут вопросы, пожалуйста, не стесняйтесь задать их.