Вопрос или проблема
Существует ли какое-то программное обеспечение, которое позволило бы мне скачать эту онлайн-книгу и/или конвертировать её в pdf?
http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=578
Конечно, я мог бы сохранить каждую страницу отдельно, а затем объединить их в pdf, но это заняло бы много времени, так как в книге 451 страница.
Я бы предложил веб-краулер, такой как wget или Offline Explorer. С правильными правилами это должно быть легко.
Даже небольшой пакет, такой как:
wget “http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_001.png“
…..
wget “http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_451.png“
должно быть легко сделать за несколько минут с помощью таблицы.
Посмотрите на эти предыдущие ответы, возможно, они будут полезны:
Программное обеспечение, которое берет веб-страницу и собирает информацию из её внутренних ссылок
[рекомендует скрипт и некоторые плагины]
Ищу программное обеспечение: создание, управление, экспорт мануалов
[Sphinx, LogicalDoc и т.д.]
Ответ или решение
Когда речь идет о скачивании онлайн-книги и конвертации её в формат PDF, основная задача состоит в автоматизации этого процесса, чтобы избежать ручной работы при сохранении каждой страницы. Вот некоторые рекомендации и инструменты, которые могут помочь в этом деле:
Использование Wget
Wget — это мощная утилита командной строки, которая позволяет загружать контент из Интернета. Она подходит для автоматизированного скачивания множества файлов (например, изображений страниц книги). Для этой задачи вы можете использовать следующие команды:
wget "http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_001.png"
...
wget "http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_451.png"
Так как вы хотите скачать 451 страницу, лучше всего подойдет подход с использованием простого сценария. Вы можете быстро создать список URL-адресов в электронных таблицах, а затем сгенерировать команды Wget автоматически.
Автоматизация процесса
- Создание списка URL: В Excel или Google Sheets создайте столбец с URL-адресами всех страниц. Структурируйте их так, как показано ниже:
http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_001.png
http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_002.png
...
http://ip194097.ntcu.edu.tw/memory/TGB/data/Tbook/TBook1/TBook1_%E9%A0%81%E9%9D%A2_451.png
- Экспортирование в текстовый файл: Вы можете экспортировать этот список в текстовый файл и добавить к каждому URL команду
wget
, что значительно упростит процесс скачивания.
Конвертация в PDF
После того, как все страницы будут загружены, необходимо объединить их в один PDF-документ. Для этого можно использовать различные инструменты:
-
ImageMagick:
ImageMagick позволяет конвертировать множество изображений в один PDF. После загрузки страниц выполните следующую команду в терминале:convert *.png output.pdf
-
PDFtk:
Если вы предпочитаете этот инструмент, он также может объединить множество PDF-документов в один файл. -
Онлайн-сервисы:
Если вы не хотите использовать командную строку, есть много онлайн-сервисов, которые могут объединить изображения в PDF. Просто загрузите все изображения, и сервис создаст PDF файл.
Заключение
Таким образом, используя Wget для автоматизированного скачивания страниц книги и инструменты конвертации, вы можете существенно упростить процесс работы и избежать рутинных задач. Обратите внимание на легальность имеющихся действий и правила авторского права, прежде чем скачивать или конвертировать контент. Это позволит вам действовать в рамках закона и уважать права авторов.