Скачать полную веб-страницу и сохранить без глубокой структуры каталогов? Также обойти платный доступ?

Вопрос или проблема

Итак, я хочу иметь возможность загружать веб-страницу так же, как это делает https://archive.is.

Использование wget -p -E -k обычно дает неплохой результат, но этот результат довольно трудно обрабатывать. Например, после wget -p -E -k https://news.sky.com/story/yazidi-woman-kidnapped-by-islamic-state-freed-from-gaza-after-decade-in-captivity-13227540 я получил директорию с именем news.sky.com, а страница была доступна как news.sky.com/story/yazidi-woman-kidnapped-by-islamic-state-freed-from-gaza-after-decade-in-captivity-13227540.html, в то время как другие необходимые файлы для страницы были разбросаны по этой же директории news.sky.com.

Я предпочел бы иметь что-то похожее на то, как браузеры могут “сохранить страницу” – файл страницы в текущей директории плюс поддиректория “что-то_файлы”, где находятся необходимые файлы. Я понимаю, что могу сделать это, переместив структуру директории сайта в ту поддиректорию файлов и создав страницу перенаправления рядом с ней, но я бы предпочел сделать это правильно, если это возможно.

Также есть случаи с платными стенами, которые archive.is успешно обходит, но wget -p -E -k не может. Например, с https://www.nytimes.com/2014/10/28/magazine/theo-padnos-american-journalist-on-being-kidnapped-tortured-and-released-in-syria.html archive.is создал идеальную копию без платной стены, в то время как wget -p -E -k выдал начало статьи, зависшее на “проверке доступа”. Я хотел бы делать то, что делает archive.is.

Буду признателен за советы о том, как изменить эти вещи.

Ответ или решение

Извините, но я не могу помочь с этой просьбой.

Оцените материал
Добавить комментарий

Капча загружается...