Набор данных векторов SVG путей для цифр

Вопрос или проблема

Я много раз использовал набор данных MNIST для обучения моделей распознавания цифр на основе оптического распознавания символов (OCR).

Теперь я пытаюсь сделать то же самое, но с набором данных svg-путей. Я пытаюсь найти эквивалент MNIST для набора данных, основанного на цифровых путях/svg.

Вот пример:

enter image description here

svg

<path d="m233.5,119.4375c-1,-1 -3.025818,-1.320366 -5,-1c-3.121445,0.506538 
-8.191559,0.090805 -15,2c-14.665848,4.112541 -23.266006,8.139008 -31,11c-6.291519,
2.327393 -11.679474,6.571106 -14,11c-1.467636,2.801086 -2,7 -2,10c0,4 
-0.610916,8.03746 0,13c0.503769,4.092209 2.877655,8.06601 4,10c1.809723,3.118484
 4.718994,6.310211 8,9c5.576645,4.571762 11.887314,5.376694 18,7c9.8564,2.617508 
19,2 34,2c11,0 19,0 24,0c5,0 9.222717,-1.723984 13,-5c2.136749,-1.853195 4.346191,
-4.70546 6,-7c1.307465,-1.813995 1.693512,-6.048325 1,-11c-1.009766,-7.209747 
-3.793945,-12.087433 -6,-17c-1.832031,-4.079666 -2.714111,-7.21167 -5,
-10c-1.793182,-2.187347 -5.714111,-5.21167 -8,-8c-2.689789,-3.281006 -4,-5 -6,
-7c-1,-1 -4,-3 -5,-4c-1,-1 -2.042908,-1.710213 -3,-2c-3.450851,-1.04483 
-3.852737,-2.173096 -5,-3c-1.813995,-1.307449 -3,-2 -6,-2c-2,0 -3.878555,
-1.493462 -7,-2c-0.987091,-0.160179 -2,0 -4,0l-1,0" id="svg_1" stroke-width="1.5"
 stroke="#000" fill="none"/>

Я намерен обучить модель для понимания параметра d=. MyScript использует этот подход вместо OCR, https://developer.myscript.com/. Они называют свой подход iink, но это больше бренд, чем слово, которое я могу использовать для поиска материалов в этой области. MyScript работает с двумерными данными, так что учитывается не только путь, но и относительные позиции объектов. Я заинтересован в применении этого подхода к математике, но на данный момент подойдет что угодно.

Я смог найти некоторые вещи

Потом я узнал о ‘CROHME‘ (Competittion on Recognition of Online Handwritten Mathematical Expressions), который также использует InkML.

Вот набор данных MNIST.SVG: https://github.com/JacekPardyak/mnist.svg/

и вот возможный подход к его классификации: https://www.kaggle.com/datasets/jacekpardyak/mnist-svg

.

Ответ или решение

Введение

Сфера распознавания образов продолжает стремительно развиваться, и одним из ключевых инструментов здесь является работа с векторными данными. Рассмотрим использование векторизированных SVG-путей для распознавания рукописных цифр.

Проблематика

Вы уже использовали набор данных MNIST для обучения моделей OCR для распознавания цифр. Однако теперь ваша задача — найти набор данных, аналогичный MNIST, но на основе SVG-путей. Многие современные разработки, такие как технологии MyScript и API от Microsoft, фокусируются на двухмерных данных, и для этого очень пригодны SVG-пути.

Решение

  1. Поиск подходящих наборов данных:

    • На Kaggle вы можете найти набор данных VectorDigits, который может стать отличной отправной точкой. Этот набор данных содержит векторные изображения цифр в формате, который подходит для обучения моделей, работающих с параметрами по типу d= в SVG.
    • Использование InkML также может быть эффективным, учитывая наличие его поддержки в различных современных API, включая API рукописного ввода Microsoft OneNote.
  2. MNIST.SVG:

    • Существует набор данных MNIST.SVG, доступный на GitHub, который может послужить хорошей базой для вашей задачи. Он предлагает цифры, закодированные через SVG-пути, что соответствует вашему запросу.
    • Kaggle предлагает соответствующую информацию о подходах к классификации этих данных, что может помочь создать эффективную модель.
  3. Алгоритмы и модели:

    • Интеграция с библиотеками машинного обучения, такими как TensorFlow или PyTorch, позволит разрабатывать индивидуальные решения для интерпретации SVG-путей.
    • Учитывая векторную природу данных, рекомендуется использовать слои, такие как слои рекуррентных нейронных сетей (RNN) или архитектуры Transformer, которые смогут эффективно работать с последовательностями и двухмерными векторными данными.

Заключение

Использование SVG-путей для распознавания рукописного ввода расширяет возможности традиционной обработки изображений, открывая широкий спектр применений, от распознавания рукописного ввода до более сложных задач, таких как интерпретация математических выражений. Исследование доступных наборов данных и существующих решений окажет существенную помощь в разработке моделей распознавания, ориентированных на векторные данные.

С этим подходом вы успешно сможете создать мощные модели, адаптированные для распознавания цифр и других рукописных символов, облегчая задачи, требующие большей точности и адаптивности работы с графически сложными данными.

Оцените материал
Добавить комментарий

Капча загружается...