Как индексировать PDF-документ?

Question 1

Я читаю PDF-документ в Ubuntu 11.04, используя стандартный “Просмотр документов”. Документ содержит более 500 страниц, и для выполнения поиска по тексту требуется некоторое время. Есть ли способ индексировать PDF-документы на вышеупомянутой платформе? Я ищу функцию, встроенную в сам ридер.

Question 2

У меня есть скрипт, который может индексировать и искать содержание в PDF.

Сначала установите poppler-utils (apt install poppler-utils)

Отредактируйте скрипт, чтобы указать папку для сканирования (foldertoindex)
(и, конечно, используйте на свой страх и риск)

#!/bin/bash
#
# Для индексации и поиска терминов в pdf-файлах
# Зависимости: pdftotext (установите poppler-utils)
# by desgua 2025/03/03

# Псевдонимы для цветов: 00 -> обычный, 01 -> жирный, 02 -> более тёмный, 03 -> курсив
green="\e[01;32m"; yellow="\e[01;33m"; turquoise="\e[01;36m"; white="\e[01;37m"

if [ ! "$1" ] || [ "$1" = "-h" ] || [ "$1" = "--help" ] ; then
    name="$(basename $0)"
    echo "
    Использование:
    $name [поисковые слова]
    $name --index

"
    exit 0
fi

# Настройки
foldertoindex="/home/$USER/Documents/Papers"
cachefolder="/home/$USER/.cache/pdfsearch"
cachefile="$cachefolder/pdfsearchindex"
[ ! -d "$cachefolder" ] && mkdir -p "$cachefolder"

INDEX () {
    clear
    started="$(date +%s)"
    count="1"
    list="$(find "$foldertoindex" -type f -name "*.pdf")"
    total="$(printf "%s\n" "$list" | wc -l)"
    
    printf "%s" "$list" | while read pdfname
    do
        printf "\e[1;1f${white}Индексация $count из $total ($((10#100*$count/$total))%%)            "
        printf "\e[2;1fЧтение $pdfname \033[K"

        if [ ! "$(grep "$pdfname" "$cachefile")" ]; then
            pdfcontent=
            pdfcontent="$(pdftotext "$pdfname" - 2>/dev/null)"
            pdfnameandcontent="$(printf "%s === %s" "$pdfname" "$pdfcontent" | tr '\n' ' ' | tr '\r' ' ')"
            printf "%s\n" "$pdfnameandcontent" >> "$cachefile"
        fi
        count="$((count+1))"
    done
    
    line="$((line+4))"
    
    stoped="$(date +%s)"
    totaltime="$(($stoped - $started))"
    
    printf "\e[${line};1f ${green}Готово за $totaltime секунд! "
    exit 0
}

SEARCH () {
    clear
    printf "\e[2;1f${white}# С возвращением, $USER! #"
    printf "\e[4;1f${white}Поиск по \"${yellow}%s %s %s %s${white}\":\n" "$first" "$second" "$third" "$forth"
    printf "\e[5;1f${turquoise}"

    grep -i "$first" "$cachefile" | grep -i "$second" | grep -i "$third" | grep -i "$forth" | awk -F "===" '{ print $1 }'

    exit 0
}

cd $HOME
if [ "$1" = "--index" ] ; then
    INDEX;
else
    first="$1"
    second="$2"
    third="$3"
    forth="$4"
    SEARCH;
fi

exit 1

старый ответ:
Tracker (устарел) может индексировать ваши PDF-документы. Он очень быстрый и надёжный.

Если вы ещё не используете этот отличный инструмент, вы можете настроить его для индексации только ваших PDF-документов: Alt+F2 затем вставьте tracker-preferences перейдите в “Местоположения” и выберите папку ваших PDF.

Question 3

Альтернативный PDF-просмотрщик

Обзор

Очень лёгкой и быстрой альтернативой Okular, не требующей его зависимости от KDE, является qpdfview. Он всё ещё находится в стадии бета-тестирования, но я нахожу его столь же стабильным, как и его более крупные аналоги. Производительность поиска превосходная и не уступает Okular.

Установка

Qpdfview ещё не доступен в официальных репозиториях, но его можно легко установить из PPA разработчика, набрав:

sudo add-apt-repository ppa:b-eltzner/qpdfview && apt-get update
sudo apt-get install qpdfview

Индексация PDF

Обзор

Я не смог найти аналог индексации Adobe Acrobat на Linux, и, похоже, это связано с тем, что встроенные индексы всё ещё не являются частью открытых PDF-стандартов.

Тем не менее, существует множество очень мощных настольных поисковых инструментов, которые быстрее и более эффективны в индексации PDF, чем проприетарные инструменты Adobe. Tracker уже упоминался, но есть и другие приложения. Вы можете найти очень подробное сравнение здесь.

Question 4

Я не уверен, что какие-либо из PDF-читалок поддерживают индексацию текста — возможно, потому что сама индексация была бы довольно затратной, а PDF-файлы открываются и закрываются “по мере необходимости”

Однако, я провёл некоторые тесты и увидел, что okular — стандартный просмотрщик от KDE — имеет гораздо более быстрый поиск, чем evince (стандартный просмотрщик от Ubuntu). Например, okular тратит, возможно, секунду, чтобы отсканировать весь документ из 500 страниц, в то время как evince тратит около 5 секунд на ту же задачу.

Вы можете установить его, набрав

sudo apt-get install okular

(или просто искать его в Центре программного обеспечения)

Если это первая программа KDE на вашей машине, она потребует установить довольно много зависимостей, но это может стоить того — я нахожу программы KDE обычно более способными, чем их аналоги от Gnome… Okular поддерживает аннотации в PDF, например, что также иногда полезно.

Как индексировать PDF-документ?

Вопрос или проблема

Альтернативный PDF-просмотрщик

Индексация PDF

Ответ или решение