Решение OCR для сканирования отсканированных документов

Question 1

Мы хотим сканировать отсканированные документы (PDF/изображения) и извлекать значимую информацию в виде пар ключ-значение или в любом другом формате. Например, когда поставщик отправляет нам счет-фактуру в виде отсканированного PDF, наше решение должно извлекать и искать значимые заголовки и детали на уровне строк.

Мы пробовали решения с открытым исходным кодом и коммерческие решения, такие как ABBYY, Amazon, Tesseract и Google OCR, но точность не соответствует ожиданиям, а выходные данные представляют собой просто текст в случае решений с открытым исходным кодом.

Пожалуйста, предложите лучшие решения с открытым исходным кодом или коммерческие решения (OCR), которые лучше всего подходят для вышеуказанных требований.

Question 2

Вы можете использовать LEADTOOLS Invoice Recognition SDK, создание основной формы позволит вам определить конкретные части счета, которые вам нужны, и получить результаты отсканированного изображения в виде пар ключ-значение. Как примечание, это платный SDK, и я работаю на этого поставщика. Ниже приведена ссылка с примером проекта о том, как это может быть реализовано на Java.

https://www.leadtools.com/support/forum/posts/t12833-HOW-TO–Use-AutoForms-in-Java

// Настройка
codecs = new RasterCodecs();
ocrEngine = OcrEngineManager.createEngine(OcrEngineType.LEAD);
ocrEngine.startup(codecs, null, null, null);
repository = new DiskMasterFormsRepository(codecs,
                 "C:\\Users\\Public\\Documents\\LEADTOOLS Images\\Forms\\MasterForm Sets\\Invoice");
autoEngine = new AutoFormsEngine(repository, ocrEngine, null);

// Подготовка изображения формы с некоторой предобработкой (по желанию)
unknownForm = codecs.load(unknownFormFilepath);
//prepareForm(unknownForm);

// Попытка сопоставить unknownForm с одной из мастер-форм в репозитории
AutoFormsRunResult runResult = autoEngine.run(unknownForm, null, null, null);
if (runResult != null) {
         // Вывод информации о форме при успехе
         printOutValues(runResult);
}

Question 3

На самом деле вам нужна извлечение данных, а не только OCR (хотя это и использует OCR). Некоторые облачные варианты включают AWS Textract и Azure Cognitive Services. Вам нужно распознавание форм, а не просто OCR. AWS Textract и Azure Forms Recognizer обладают функционалом такого типа.

Question 4

Мой совет — Global Search от Square 9. https://www.square-9.com/products/enterprise-content-management/

Он предлагает бесконечные варианты сканирования, позволяет классифицировать документы на основе информации OCR, позволяет выделять области страниц для извлечения информации из полей форм на общих форматированных документах, может сканировать и считывать штрих-коды и позволяет создавать сложные рабочие процессы, такие как разделение и отправка части документа в один архив, а части в другой Archive и т.д. В сущности, сканируйте, читайте, принимайте решения, а затем сохраняйте так, как вам нужно. OnPrem, и клиент не требует установки (основан на браузере).

Это, пожалуй, самое надежное решение, с которым я работал за свою карьеру.

Решение OCR для сканирования отсканированных документов

Вопрос или проблема

Ответ или решение