Заявка на коррекцию наклона PDF

Вопрос или проблема

Ищу инструмент, который может исправлять наклон страниц PDF. Страницы представляют собой отсканированные изображения текста. Текст (или вся его часть, которая меня интересует) находится в двух колонках.

Это подготовка к OCR. Все инструменты OCR, которые я пробовал, путаются из-за колонок и помещают фрагменты текста не в те места. Я пытался разрезать каждую страницу пополам вертикально, но страницы находятся под разными углами.

Мне нужно что-то

  1. Что будет работать оффлайн (желательно)

  2. Что не ухудшит качество изображения на исправленном изображении, то есть не будет сжимать его заново (это плохо для OCR)

  3. Что сможет обработать документ длиной более 200 страниц

  4. Хорошо бы с графическим интерфейсом

  5. Свободное и открытое программное обеспечение (FOSS)

  6. Для Windows

У меня есть хорошее решение для OCR (PDFGear, использует помощь ИИ, что необходимо с таким старым изображением). Поэтому, как только у меня все будет под правильным углом, я смогу разделить левые и правые колонки на всех страницах, и у нас будет всё отлично.

Я посмотрел здесь: https://www.pdfgear.com/pdf-editor-reader/deskew-pdf.htm#part3, но все перечисленные варианты – это CLI, платные, или делают OCR, не предоставляя мне промежуточный шаг, который я хочу, а именно исправленное изображение.

Пример страницы:

страница из старой книги

Пример страницы ниже

Ответ или решение

Инструменты для Deskew PDF-файлов: Описание, Рекомендации и Решения

Когда дело доходит до обработки PDF-документов, содержащих сканированные изображения текста, одним из самых распространенных препятствий на пути к качественному оптическому распознаванию символов (OCR) является необходимость выравнивания страниц. Особенно это актуально, когда страницы имеют текст, размещенный в два столбца, как в вашем случае. Исходя из вашего запроса, я предлагаю вам рассмотреть ряд решений, которые соответствуют вашим критериям.

Проблема

Сканированные страницы часто наклонены под разными углами, что затрудняет процесс распознавания текста, так как OCR может ошибочно воспринимать структуру документа. Также основным требованием к инструменту является возможность обработки большого количества страниц, высокая качество изображения и рабочий интерфейс.

Решения

  1. GIMP + Плагин G’MIC
    Описание: GIMP — это бесплатный и открытый графический редактор, имеющий возможность обработки изображений. С применением плагина G’MIC можно напрямую deskew (выравнивать) сканированные изображения.
    Преимущества:

    • Работает оффлайн.
    • Не ухудшает качество изображения.
    • Гибкость в обработке; возможность извлечения и редактирования отдельных колонок по мере необходимости.
    • GUI, что позволяет удобно работать с изображениями.
  2. Imagemagick + PDF Arranger
    Описание: Хотя Imagemagick – это утилита командной строки, использование её в паре с инструментом PDF Arranger (который имеет графический интерфейс) позволяет вам почти полностью автоматически обрабатывать PDF-документы.
    Преимущества:

    • Imagemagick позволяет deskew PDF с помощью скриптов, не снижая качество изображения.
    • PDF Arranger обеспечивает удобное управление страницами и ихкомбинирование.
  3. ScanTailor
    Описание: ScanTailor – программа, созданная именно для обработки сканированных документов и подготовки их к OCR. Включает инструменты для deskew, обрезки, накладки и других операций, необходимых для оптимизации результата.
    Преимущества:

    • Офлайн-решение.
    • Подходит для обработки больших документов.
    • GUI, обеспечивающий простоту в управлении.
    • Open Source, поэтому доступно бесплатно.
  4. PDFsam Visual
    Описание: Хотя PDFsam в первую очередь служит для разделения и объединения PDF-файлов, их визуальная версия включает в себя функции редактирования, которые могут быть вам полезны.
    Преимущества:

    • Удобный интерфейс.
    • Работа оффлайн.
    • Поддерживает большие файлы.

Заключение

Для успешного deskew вашего PDF-документа с текстом в два столбца вам подойдут перечисленные инструменты. Рекомендуем начать с GIMP с плагином G’MIC или ScanTailor, так как они имеют интерфейс и достаточно мощны для обработки больших документов без потери качества. Каждый из этих инструментов бесплатен и предлагает открытый исходный код, что идеально соответствует вашим критериям.

Рекомендация: Перед началом работы убедитесь, что все необходимое ПО установлено и протестировано на небольшом объем документ, чтобы избежать возможных проблем с масштабированием при работе с 200-страничными файлами.

Оцените материал
Добавить комментарий

Капча загружается...