Вопрос или проблема
Я сталкиваюсь с проблемой ниже:
pytesseract.pytesseract.TSVNotSupported: TSV output not supported. Tesseract >=
3.05 required at image_to_data (/usr/local/lib/python3.5/dist
packages/pytesseract/pytesseract.py:371)
моя версия tesseract -v это 3.04.01.
sudo apt-get install tesseract-ocr
tesseract-ocr уже является самой новой версией (3.04.01-5)
Когда я запускаю sudo apt install tesseract-ocr=3.05.01
, я получаю ошибку “версия не найдена”.
Как я могу установить более позднюю версию tesseract-ocr?
Информация о моей ОС:
PRETTY_NAME="Debian GNU/Linux 9 (stretch)"
NAME="Debian GNU/Linux"
VERSION_ID="9"
VERSION="9 (stretch)"
ID=debian
HOME_URL="https://www.debian.org/"
SUPPORT_URL="https://www.debian.org/support"
BUG_REPORT_URL="https://bugs.debian.org/"
У меня в /apt/sources.list есть следующее:
deb http://deb.debian.org/debian/ stretch main
deb-src http://deb.debian.org/debian/ stretch main
deb http://security.debian.org/ stretch/updates main
deb-src http://security.debian.org/ stretch/updates main
deb http://deb.debian.org/debian/ stretch-updates main
deb-src http://deb.debian.org/debian/ stretch-updates main
Сначала проверьте, какая последняя версия релиза в официальной документации или в репозитории Github.
Затем проверьте, как установить последнюю версию в зависимости от вашей системы.
На Debian Stretch можно установить текущую последнюю версию 4.1.1 (на ваш страх и риск) с notesalexp.org:
echo "deb [trusted=yes] https://notesalexp.org/tesseract-ocr/stretch/ stretch main" >> /etc/apt/sources.list
# Запустите, если вам нужны пакеты других языков, например, `tessdata_best`
echo "deb [trusted=yes] https://notesalexp.org/tesseract-ocr/tessdata_best/ stretch main" >> /etc/apt/sources.list
apt-get update && apt-get install tesseract-ocr=4.1.1+git4247-97079fa3-1
Ответ или решение
Чтобы установить последнюю версию Tesseract OCR на Debian Stretch, выполните следующие шаги, учитывая, что ваш текущий процесс установки сталкивается с проблемами из-за устаревшей версии Tesseract (3.04.01).
Шаги по установке последней версии Tesseract OCR
-
Уточнение версии Tesseract OCR
Прежде чем продолжить, важно знать, какая последняя версия Tesseract доступна. Вы можете проверить это на официальной странице релизов или на GitHub-репозитории. -
Добавление нового источника репозиториев
Поскольку ваша текущая версия Debian (Stretch) предлагает только Tesseract 3.04.01 в своих стандартных репозиториях, вам необходимо добавить сторонний источник, чтобы получить доступ к более новой версии.Откройте терминал и выполните следующую команду для добавления репозитория:
echo "deb [trusted=yes] https://notesalexp.org/tesseract-ocr/stretch/ stretch main" >> /etc/apt/sources.list
Если вы хотите также установить дополнительные языковые пакеты, например,
tessdata_best
, добавьте ещё одну строку:echo "deb [trusted=yes] https://notesalexp.org/tesseract-ocr/tessdata_best/ stretch main" >> /etc/apt/sources.list
-
Обновление списка пакетов и установка
Выполните обновление списка пакетов и установите Tesseract:sudo apt-get update && sudo apt-get install tesseract-ocr=4.1.1+git4247-97079fa3-1
Примечание: Убедитесь, что действительно хотите использовать репозиторий из стороннего источника, так как это может потенциально нести риски безопасности. Всегда желательно проверять надежность добавляемых источников.
-
Проверка версии
После установки проверьте установленную версию Tesseract, введя команду:tesseract -v
Это должно отобразить установленную версию, которая должна быть >= 3.05, чтобы избежать ошибок, подобных той, о которой вы упоминали.
Заключение
Следуя этим шагам, вы сможете установить более актуальную версию Tesseract OCR на Debian Stretch. Это позволит вам использовать все функции и исправленные методы библиотеки, включая генерацию TSV-форматов. Если возникнут проблемы с работой или установкой, рекомендуется обратиться к документации проекта или обсудить вопрос на форумах сообщества Debian для более оптимальных решений.