Преобразовать скан диаграммы в редактируемый диаграммный документ.

Вопрос или проблема

У меня есть скан диаграммы с блоками, линиями и текстом.

Источник этого файла утерян.

Я хотел бы создать файл диаграммы, который соответствует замыслу сканированной диаграммы.

Другими словами: важнее, чтобы линия шла от блока A к блоку B, чем правильно подобрать шрифт для текста внутри блока B.

Я пробовал трассировку битмапа в Inkscape, но она трассирует битмап (и делает это очень хорошо) — она не преобразует его в диаграмму и не преобразует текст в текстовые поля.

Формат файла может быть LibreOffice Draw или Inkscape, но я открыт для других форматов.

Можно сказать, что я ищу функциональность, похожую на “OCR”, но для диаграмм.

Учитывая, что современные AI могут взять вручную нарисованный каркас веб-сайта и закодировать базовый HTML и CSS для макета, я убежден, что сегодня должен существовать инструмент, который может выполнить эту задачу.

В файле нет ничего конфиденциального, поэтому также подойдут веб-инструменты.

Сильные мультимодальные LLM, такие как GPT 4o, часто могут неплохо конвертировать изображение диаграмм в язык описания графа, такой как формат DOT Graphviz, который затем можно редактировать.

Ответ или решение

Конвертация скана диаграммы в редактируемый документ диаграммы представляет собой задачу, требующую как использования интеграции современных технологий распознавания образов, так и знания о том, как эти технологии могут быть применены для различных задач. Рассмотрим эту задачу с упором на практическое решение, которое будет подходить к конкретной ситуации.

Теория (Т)

Основой для конвертации скана диаграммы в редактируемый формат является использование технологий распознавания изображений и текстов. В общем виде, распознавание диаграмм можно счесть подобным процессу оптического распознавания текстов (OCR), с той лишь разницей, что вместо текста нам требуется идентифицировать и реконструировать графические элементы – линии, фигуры и связи между ними. Подобные технологии становятся все более актуальными с развитием мультимодальных больших языковых моделей (LLM), которые уже могут сравнительно эффективно преобразовывать изображение диаграммы в текстовые описания, например, в формате Graphviz DOT. Эта текстовая форма описания может быть далее использована для редактирования и визуализации диаграмм в графических редакторах.

Как только изображение сканированного документа будет преобразовано в текстовую форму описания, станет возможным редактирование элементов диаграммы, таких как линии и блоки, с большей точностью, чем при простом следовании векторному представлению.

Пример (Е)

Для более глубокого понимания процесса конверсии, представлю следующий практический пример. Предположим, у вас есть сканированный документ, который содержит блок-схему бизнес-процесса компании. В этом документе блоки представляют собой этапы процесса, а линии определяют взаимосвязь между этими этапами.

Работа начинается с использования инструмента, который способен выделить фигуры и текст, например, специализированную программу для анализа изображений диаграмм или API. Один из таких инструментов может использовать методологию машинного обучения для идентификации стандартных фигуры, такие как прямоугольники, линии и текстовые поля.

Далее, применяя алгоритмы распознавания, программа должна преобразовать видимые элементы диаграммы и их взаимосвязи в текстовый формат. Например, мультимодальная LLM может обнаружить, что прямоугольник, содержащий текст "Старт", соединен линией с другим прямоугольником "Процесс 1", и заключить, что первая фигура должна быть переведена в текстовое описание аналогичное "digraph G { Start -> Process1; }".

Затем эскиз мигрируется в формат описания диаграмм, такой как Graphviz DOT, который может быть импортирован в редактор диаграмм для дальнейшей доработки, будь то Inkscape или LibreOffice Draw.

Применение (A)

Применение данной методологии конверсии скана диаграммы должно начинаться с выбора соответствующего инструмента для распознавания и операционной среды. В зависимости от предпочитаемых вами инструментов (будь то десктопные программы или веб-сервисы), можно рассмотреть следующие шаги:

Выбор инструмента конверсии: Начните с поиска и тестирования различных инструментов OCR для диаграмм. На данный момент есть несколько предварительно обученных на интеллекте моделей, которые могут быть полезными в решении этой задачи, такие как AI-технологии от Google или Azure.
Архитектура конверсии: Если вы технически подготовлены, можно использовать специализированные библиотеки Python, например, такие инструменты как OpenCV вместе с библиотеками машинного обучения для выявления паттернов и обработки визуальной информации из сканированных изображений.
Тестирование и доработка: После конверсии базовой структуры диаграммы, импортируйте результат в подходящее программное обеспечение или в веб-интерфейс для редактирования. В этом процессе уделяйте внимание точности распознанных связей и взаимосвязей между блоками.
Финальное редактирование: Делайте финальное редактирование уже внутри выбранного программного обеспечения, чтобы уточнить позиции элементов, текстовые поля и исправить возможные несоответствия.

Таким образом, эффективная конвертация скана диаграммы в редактируемый формат требует комбинации современных технологий и внимательности к деталям в процессе распознавания и редактирования. Успех данного процесса зависит от вашей способности выбрать правильные инструменты и подход в зависимости от задачи.