Вопрос или проблема
Я пытаюсь оцифровать свои химические заметки (в форматы, подобные тем, которые мы видим в учебниках). Я пробовал Mathpix, и он работает великолепно, но у меня нет денег, чтобы за него платить.
Кто-нибудь знает о других инструментах OCR для химических реакций? Я уже пробовал общие инструменты OCR, такие как Tesseract, который едва способен обрабатывать схемы и давать точные результаты.
Я пробовал различные формы предварительной обработки через OpenCV, включая пороги, размытия, ядра и так далее. Однако улучшений нет, Tesseract распознает 1-2 символа и часто вообще ничего не возвращает.
Можно считать, что почерк довольно аккуратный, а качество изображения хорошее.
Любые советы по этому поводу будут очень ценны, даже если они просто укажут мне в общем направлении.
Ответ или решение
Судя по вашему запросу, вы столкнулись с трудностями при преобразовании своих химических записей в цифровой формат, особенно при использовании стандартных инструментов OCR, таких как Tesseract. Вот несколько вариантов, которые могут помочь вам в этой ситуации:
-
OCR для химических структур: Некоторые инструменты специально разработаны для распознавания химических формул и структур. Рассмотрите следующие решения:
- ChemPix: Это программа, которая интегрируется с программами типа GIMP для извлечения химической информации из изображений. Она может быть полезной для распознавания структур.
- ChemDraw: Хотя это коммерческое ПО, оно предлагает возможность создавать химические структуры и может распознавать определенные графические элементы. Возможно, вы сможете найти пробную версию или студентческую лицензию.
-
Open-source решения: Если вам нужны бесплатные инструменты, вы можете рассмотреть использование библиотеки Open Babel для преобразования химической информации и структур. Она поддерживает различные форматы и позволяет извлекать нужные данные.
-
Используйте специализированные OCR-движки: Некоторые исследователи разработали алгоритмы на базе глубокого обучения для обработки химических структур. Например, вы можете изучить возможности библиотеки DeepChem или инструменты, созданные на основе TensorFlow/Keras, которые могут быть обучены на вашем наборе данных с химическими реакциями и формулами.
-
Методы предобработки: Если вы всё же планируете продолжать использовать Tesseract, важно оптимизировать входные изображения. Попробуйте использовать сочетание следующих шагов:
- Применение контрастного улучшения и выравнивание яркости.
- Использование различных фильтров для удаления шума и сглаживания текста.
- Экспериментируйте с разными масштабами и ориентациями изображения, чтобы найти подходящее значение для улучшения распознавания.
-
Сообщество и обмен опытом: Вы можете обратиться к форумам, таким как Reddit или специализированные сообщества, посвященные химии и OCR, где эксперты могут предложить свои советы и, возможно, поделиться собственными скриптами для обработки изображений.
-
Проверка доступности местных ресурсов: Если вы учитесь или работаете в университете, возможно, в вашем учебном заведении есть доступ к определённым программам или ресурсам, которые могут помочь вам с задачей цифровизации.
Надеюсь, что эти советы окажутся полезными и помогут вам успешно решить задачу оцифровки ваших химических записей.