Программное обеспечение AI OCR для людей с нарушениями зрения

На чтение 3 мин Опубликовано 24.09.2024

Вопрос или проблема

У меня есть коллега с нарушениями зрения.

Если ему нужно читать текст, это нормально, у него есть программа для озвучивания текста.

Но если он получает какой-либо график, распознавание текста не срабатывает. Например:

Вопрос: существует ли какое-либо программное обеспечение на основе ИИ, которое может проверить изображение на экране и озвучить, что изображено на данном графике? Например:

Этот график показывает “температуру 1 сентября” и имеет возрастающую температуру с 2°C до 16°C с 9:00 до 16:00 с некоторой стагнацией на уровне 10°C с 12:00 до 15:00

Или могут быть изображения, которые содержат больше графиков, не только один..

Ответ или решение

На сегодняшний день существует несколько программного обеспечения, которое использует технологии искусственного интеллекта для оптического распознавания символов (OCR) и может помочь людям с нарушениями зрения извлекать информацию из графиков и изображений. Вот несколько решений, которые могут помочь вашему коллеге:

Microsoft Seeing AI: Это бесплатное приложение для мобильных устройств, разработанное Microsoft. Оно использует технологии компьютерного зрения для распознавания объектов, текста и даже графиков. Пользователи могут навести камеру на изображение графика, и приложение оно пробует описать его содержание. Например, может распознать оси и данные на графике и озвучить основную информацию.
VoiceOver с помощью сторонних приложений: Если ваш коллега использует устройства Apple, программа VoiceOver может комбинироваться с OCR-приложениями, такими как Prizmo или KNFB Reader. Эти приложения позволяют делать фотографии графиков и извлекать текстовую информацию с их помощью, после чего VoiceOver может озвучить результат.
Tesseract OCR с дополнительными сценариями: Tesseract — это мощный OCR-движок с открытым исходным кодом. Хотя он сам по себе не имеет интуитивно понятного интерфейса, его можно настроить для работы со сторонними приложениями. Например, разработка пользовательских алгоритмов на Python может интегрировать анализ графиков с распознаванием текста и выводить результат в виде аудиосообщения.
Aira: Это сервис, который связывает пользователей с обученными вспомогательными агентами через видеозвонок. Агенты могут в реальном времени помогать вашему коллеге анализировать графики и описывать их. Это может быть лучшим решением для сложных графиков или изображений, где требуется интерпретация данных.
Google Lookout: Это приложение, разработанное Google, очень похоже на Seeing AI, но оно также может распознавать и описывать графики и изображения. Пользователи могут навести камеру на график, и приложение попытается извлечь и озвучить данные.

Важно отметить, что несмотря на достижения в области технологий OCR и искусственного интеллекта, качество распознавания может варьироваться в зависимости от сложности графиков и их оформления. Поэтому в некоторых случаях может потребоваться комбинация программ или даже использование специалистов для интерпретации результатов.

Данный набор инструментов будет полезен вашему коллеге для доступа к визуальной информации, включая графики, и обеспечит высокий уровень взаимодействия с документами и изображениями.