Вопрос или проблема
У меня есть коллега с проблемами со зрением, который едва видит.
Если ему нужно читать тексты, это нормально, у него есть программа для преобразования текста в речь.
Но если он получает какой-либо график, например:
https://www.google.com/search?q=graph&udm=2
OCR не справляется.
Вопрос: существует ли программное обеспечение на основе ИИ для OCR, которое может проверить изображение на экране и вслух сказать, что изображено на данном графике? Например:
этот график посвящен “температуре 1 сентября” и показывает увеличение температуры с 2°C до 16°C с 9 утра до 4 вечера с некоторой стагнацией на 10°C с 12 до 3 часов дня
или могут быть картинки с несколькими графиками, а не только с одним..
Ответ или решение
Существуют несколько решений на базе ИИ и OCR (оптическое распознавание символов), которые могут помочь вашему коллеге в интерпретации графиков и изображений. Эти программы позволяют извлекать текстовую информацию из изображений и преобразовывать ее в речь.
-
Microsoft Seeing AI – это приложение, разработанное Microsoft, которое помогает людям с нарушениями зрения. Оно использует технологии распознавания объектов и текста для анализа изображений. Хотя приложение фокусируется на текстах, оно может также описывать графики и диаграммы, указывая, что изображено на экране.
-
KNFB Reader – это приложение для мобильных устройств, которое позволяет сканировать печатный текст с помощью камеры телефона. При помощи функции OCR оно может распознавать текстовые данные, а также предоставляет возможность вывода текста в звуковом формате. Тем не менее, его возможности по анализу графиков могут быть ограничены.
-
Aira – это сервис, который предоставляет возможность подключиться к живым операторам, которые могут в реальном времени описывать окружающий мир, включая графики и диаграммы на экране. Оператор будет анализировать график и сообщать все необходимые детали по голосовой связи.
-
Be My Eyes – еще одно приложение, которое связывает людей с нормальным зрением и людьми с нарушениями зрения. Пользователь может обратиться за помощью через приложение, и волонтеры могут помочь с интерпретацией графиков или другим контентом.
-
Google Lens – хотя основное предназначение этого приложения заключается в распознании объектов и текстов через камеру, оно также может помочь в интерпретации некоторых графиков, если они имеют четкое представление. Вы можете использовать его для определения, что изображено на графике, но точность может варьироваться в зависимости от сложности графика.
-
Tactile Graphics – хотя это не приложение, стоит упомянуть о тактильных графиках. Некоторые специализированные организации могут создать тактильные версии графиков, которые можно "ощупать", помогая пользователям с проблемами зрения лучше понять содержимое.
Пожалуйста, учитывайте, что каждая из этих технологий имеет свои ограничения, и точность распознавания может варьироваться. Лучшее решение будет зависеть от особенностей графиков и конкретных предпочтений вашего коллеги. Важно протестировать несколько из них и выбрать то, которое наиболее эффективно решает поставленные задачи.