Программное обеспечение для загрузки онлайн-книги

Вопрос или проблема

Существует ли какое-то программное обеспечение, которое позволило бы мне скачать эту онлайн-книгу и/или конвертировать её в pdf?

http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=578

Конечно, я мог бы сохранить каждую страницу отдельно, а затем объединить их в pdf, но это заняло бы много времени, так как в книге 451 страница.

Я бы предложил веб-краулер, такой как wget или Offline Explorer. С правильными правилами это должно быть легко.

Даже небольшой пакет, такой как:

wget “http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_001.png
…..
wget “http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_451.png

должно быть легко сделать за несколько минут с помощью таблицы.

Посмотрите на эти предыдущие ответы, возможно, они будут полезны:

Программное обеспечение, которое берет веб-страницу и собирает информацию из её внутренних ссылок

[рекомендует скрипт и некоторые плагины]

Ищу программное обеспечение: создание, управление, экспорт мануалов

[Sphinx, LogicalDoc и т.д.]

Ответ или решение

Когда речь идет о скачивании онлайн-книги и конвертации её в формат PDF, основная задача состоит в автоматизации этого процесса, чтобы избежать ручной работы при сохранении каждой страницы. Вот некоторые рекомендации и инструменты, которые могут помочь в этом деле:

Использование Wget

Wget — это мощная утилита командной строки, которая позволяет загружать контент из Интернета. Она подходит для автоматизированного скачивания множества файлов (например, изображений страниц книги). Для этой задачи вы можете использовать следующие команды:

wget "http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_001.png"
...
wget "http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_451.png"

Так как вы хотите скачать 451 страницу, лучше всего подойдет подход с использованием простого сценария. Вы можете быстро создать список URL-адресов в электронных таблицах, а затем сгенерировать команды Wget автоматически.

Автоматизация процесса

  1. Создание списка URL: В Excel или Google Sheets создайте столбец с URL-адресами всех страниц. Структурируйте их так, как показано ниже:
http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_001.png
http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_002.png
...
http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_451.png
  1. Экспортирование в текстовый файл: Вы можете экспортировать этот список в текстовый файл и добавить к каждому URL команду wget, что значительно упростит процесс скачивания.

Конвертация в PDF

После того, как все страницы будут загружены, необходимо объединить их в один PDF-документ. Для этого можно использовать различные инструменты:

  1. ImageMagick:
    ImageMagick позволяет конвертировать множество изображений в один PDF. После загрузки страниц выполните следующую команду в терминале:

    convert *.png output.pdf
  2. PDFtk:
    Если вы предпочитаете этот инструмент, он также может объединить множество PDF-документов в один файл.

  3. Онлайн-сервисы:
    Если вы не хотите использовать командную строку, есть много онлайн-сервисов, которые могут объединить изображения в PDF. Просто загрузите все изображения, и сервис создаст PDF файл.

Заключение

Таким образом, используя Wget для автоматизированного скачивания страниц книги и инструменты конвертации, вы можете существенно упростить процесс работы и избежать рутинных задач. Обратите внимание на легальность имеющихся действий и правила авторского права, прежде чем скачивать или конвертировать контент. Это позволит вам действовать в рамках закона и уважать права авторов.

Оцените материал
Добавить комментарий

Капча загружается...