Easyocr Настройка модели распознавания текста english_g2.pth с использованием моего пользовательского набора данных

Содержание

Вопрос или проблема
Ответ или решение
Теория
Пример
Применение

Вопрос или проблема

Я использую easy OCR из следующей ссылки https://github.com/JaidedAI/EasyOCR

У меня есть собственный набор данных из 25000 изображений для обучения и 1000 изображений для валидации в папке all_data. Максимальная высота изображения составляет 64 пикселя. Теперь я хочу тонко настроить модель english_g2.pth, используя собственный набор данных. Мне нужно изменить файл en_filtered_config.yaml, чтобы тонко настроить предварительно обученную модель с использованием собственного набора данных, содержащего только алфавиты.

После обучения у меня есть новый pth файл, размещенный в папке home/easyocr. Будет еще 2 файла с тем же именем, что и pth файл. Я буду использовать примеры файлов, загруженные из репозитория easyocr на GitHub. Если необходимо обновить эти файлы, дайте мне знать.

Структура папок остается такой же, как в репозитории easyocr на GitHub.

Интересуюсь, удалось ли вам это сделать. Я не уверен, достаточно ли английской модели g2, чтобы провести обучение.

Ответ или решение

Для успешной настройки модели EasyOCR english_g2.pth с использованием вашего пользовательского датасета, необходимо выполнить несколько ключевых шагов. Этот процесс включает в себя разработку, подготовку и обучение модели на базе предоставленных данных. Я детально объясню каждый из этапов, связанных с этой задачей.

Теория

Модели, такие как EasyOCR, основываны на архитектуре глубоких нейронных сетей и обучены управлять задачей распознавания текста в изображениях. Они используют предварительно обученные модели, которые обладают способностью "переноса обучения", чтобы повысить точность и ускорить процесс настройки на новых данных. Это позволяет эффективно использовать уже существующие знания, накопленные моделью при обучении на большом наборе данных, и адаптировать их под новые, пользовательские данные.

Fine-tuning (или тонкая настройка) модели включает в себя следующие ключевые шаги:

Подготовка данных: Ваши данные должны быть в формате, поддерживаемом моделью. Это включает в себя правильную маркировку и хранение данных в структурированной форме.
Настройка конфигурации модели: Изменение конфигурационного файла (в вашем случае en_filtered_config.yaml), чтобы соответствовать новым параметрам и требованиям данных.
Процесс обучения: Запуск обучения с использованием ваших данных, что включает в себя легкую настройку гиперпараметров модели, таких как скорость обучения, количество эпох и размеры партий обработки данных.
Валидация и тестирование: После обучения необходимо проверить модель на валидационном наборе данных, чтобы оценить её производительность.

Пример

Рассмотрим процесс настроек на вашем случае. У вас есть комплект изображений — 25,000 для обучения и 1,000 для валидации, что является хорошим набором для тонкой настройки модели.

Следующие шаги помогут вам в реализации этой задачи:

Подготовьте ваши данные:
- Убедитесь, что все изображения отформатированы и размечены корректно. Они должны соответствовать ожидаемому вводу модели, т.е. иметь высоту 64 пикселя.
- Разбейте ваш набор данных на учебный и валидационный сеты.
Измените en_filtered_config.yaml:
- Обновите пути до вашего пользовательского датасета.
- Настройте параметры обучающей последовательности. Задайте классы распознавания только для английских алфавитов, чтобы модель не путалась на помехах.
- Установите гиперпараметры, такие как learning_rate и epochs в соответствии с возможностями вашей аппаратуры и особенностями данных.
Запустите процесс обучения:
- Используйте скрипты из репозитория EasyOCR для запуска обучения. Это может быть ‘./train.py’, где вы укажете путь до вашего датасета и отредактированного конфигурационного файла.
- Контролируйте ход обучения, проверяя метрики производительности и допуская корректировку параметров в случае необходимости.
Получите обученную модель:
- По окончании обучения новая версия модели будет сохранена в виде .pth файла. Также могут быть созданы другие файлы, которые содержат метаданные обучения.
Тестирование и интеграция:
- Используйте примеры из репозитория EasyOCR для тестирования вашей модели.
- При необходимости скорректируйте конфигурации и скрипты, чтобы обеспечить стабильную работу с новыми данными.

Применение

Тонкая настройка английской OCR-модели на ваш собственный датасет позволяет лучше адаптироваться под специфику входных данных. Например, если ваш датасет содержит особые шрифты или стили, обучение на этих данных может значительно повысить эффективность распознавания.

Убедитесь, что все зависимости установлены, а система готова к обработке больших объемов данных. Это потребует от вас несколько техник оптимизации вычислений, таких как использование GPU или распределённой обработки.

В завершение, проведите обширное тестирование, чтобы подтвердить повышение качества распознавания, учитывая специфику ваших данных. Процесс обучения и тщательная настройка обеспечат точное распознавание и адаптацию модели под любые изменения в датасете.