Химические рукописные заметки OCR

Вопрос или проблема

Я пытаюсь оцифровать свои химические заметки (в форматы, подобные тем, которые мы видим в учебниках). Я пробовал Mathpix, и он работает великолепно, но у меня нет денег, чтобы за него платить.

Кто-нибудь знает о других инструментах OCR для химических реакций? Я уже пробовал общие инструменты OCR, такие как Tesseract, который едва способен обрабатывать схемы и давать точные результаты.

Я пробовал различные формы предварительной обработки через OpenCV, включая пороги, размытия, ядра и так далее. Однако улучшений нет, Tesseract распознает 1-2 символа и часто вообще ничего не возвращает.

Можно считать, что почерк довольно аккуратный, а качество изображения хорошее.

Любые советы по этому поводу будут очень ценны, даже если они просто укажут мне в общем направлении.

Ответ или решение

Судя по вашему запросу, вы столкнулись с трудностями при преобразовании своих химических записей в цифровой формат, особенно при использовании стандартных инструментов OCR, таких как Tesseract. Вот несколько вариантов, которые могут помочь вам в этой ситуации:

  1. OCR для химических структур: Некоторые инструменты специально разработаны для распознавания химических формул и структур. Рассмотрите следующие решения:

    • ChemPix: Это программа, которая интегрируется с программами типа GIMP для извлечения химической информации из изображений. Она может быть полезной для распознавания структур.
    • ChemDraw: Хотя это коммерческое ПО, оно предлагает возможность создавать химические структуры и может распознавать определенные графические элементы. Возможно, вы сможете найти пробную версию или студентческую лицензию.
  2. Open-source решения: Если вам нужны бесплатные инструменты, вы можете рассмотреть использование библиотеки Open Babel для преобразования химической информации и структур. Она поддерживает различные форматы и позволяет извлекать нужные данные.

  3. Используйте специализированные OCR-движки: Некоторые исследователи разработали алгоритмы на базе глубокого обучения для обработки химических структур. Например, вы можете изучить возможности библиотеки DeepChem или инструменты, созданные на основе TensorFlow/Keras, которые могут быть обучены на вашем наборе данных с химическими реакциями и формулами.

  4. Методы предобработки: Если вы всё же планируете продолжать использовать Tesseract, важно оптимизировать входные изображения. Попробуйте использовать сочетание следующих шагов:

    • Применение контрастного улучшения и выравнивание яркости.
    • Использование различных фильтров для удаления шума и сглаживания текста.
    • Экспериментируйте с разными масштабами и ориентациями изображения, чтобы найти подходящее значение для улучшения распознавания.
  5. Сообщество и обмен опытом: Вы можете обратиться к форумам, таким как Reddit или специализированные сообщества, посвященные химии и OCR, где эксперты могут предложить свои советы и, возможно, поделиться собственными скриптами для обработки изображений.

  6. Проверка доступности местных ресурсов: Если вы учитесь или работаете в университете, возможно, в вашем учебном заведении есть доступ к определённым программам или ресурсам, которые могут помочь вам с задачей цифровизации.

Надеюсь, что эти советы окажутся полезными и помогут вам успешно решить задачу оцифровки ваших химических записей.

Оцените материал
Добавить комментарий

Капча загружается...