Как скачать сайт из архива Wayback Machine на archive.org?

Question 1

Я хочу получить все файлы для данного сайта на archive.org. Причины могут включать:

оригинальный автор не архивировал свой собственный сайт, и он сейчас недоступен, я хочу сделать из него публичный кэш
я оригинальный автор какого-то сайта и потерял часть контента. Я хочу его восстановить
…

Как мне это сделать?

Учитывая, что машина времени archive.org очень специфична: ссылки на веб-страницы не указывают на сам архив, а на веб-страницу, которая может больше не существовать. JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не сработает.

Question 2

Я пробовал разные способы загрузки сайта и в конечном итоге нашел загрузчик машины времени – который был создан Hartator (все заслуги ему, пожалуйста), но я просто не заметил его комментарий на вопрос. Чтобы сэкономить ваше время, я решил добавить gem wayback_machine_downloader в качестве отдельного ответа здесь.

Сайт по адресу http://www.archiveteam.org/index.php?title=Restoring перечисляет эти способы загрузки из archive.org:

Загрузчик машины времени, небольшой инструмент на Ruby для загрузки любого сайта из Машины времени. Бесплатно и с открытым исходным кодом. Мой выбор!
Warrick – основной сайт, похоже, недоступен.
Загрузчики из Машины времени – сервис, который загрузит ваш сайт из Машины времени и даже добавит плагин для WordPress. Не бесплатно.

Question 3

Это можно сделать с помощью скрипта оболочки bash, объединенного с wget.

Идея заключается в том, чтобы использовать некоторые из функций URL машины времени:

http://web.archive.org/web/*/http://domain/* отобразит все сохраненные страницы с http://domain/ рекурсивно. Это можно использовать для составления индекса страниц для загрузки и избегания эвристики для обнаружения ссылок на веб-страницах. Для каждой ссылки также есть дата первой версии и последней версии.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page отобразит все версии http://domain/page для года YYYY. На этой странице можно найти конкретные ссылки на версии (с точной меткой времени)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page вернет неизмененную страницу http://domain/page по заданной метке времени. Обратите внимание на токен id_.

Это основы для создания скрипта, который загрузит все с заданного домена.

Question 4

Вы можете сделать это легко с помощью wget.

wget -rc --accept-regex '.*ROOT.*' START

Где ROOT – корневой URL сайта, а START – начальный URL. Например:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Обратите внимание, что вам следует обойти фрейм веб-архива для URL START. В большинстве браузеров вы можете нажать правой кнопкой мыши на странице и выбрать “Показать только этот фрейм”.

Question 5

Существует инструмент, специально разработанный для этой цели, Warrick: https://code.google.com/p/warrick/

Он основан на протоколе Memento.

Question 6

Загрузчик машины времени работает отлично. Загружает страницы – .html, .js, .css и все ресурсы. Просто запустил index.html локально.

При установленном Ruby просто выполните:

gem install wayback_machine_downloader
wayback_machine_downloader http://example.com -c 5 # -c 5 добавляет параллелизм для гораздо более быстрой загрузки

Если ваше соединение прервется на полпути через большую загрузку, вы даже можете запустить его снова, и он повторно загрузит любые недостающие страницы

Question 7

Мне удалось сделать это, используя Windows Powershell.

перейдите в машину времени и введите свой домен
нажмите URLS
скопируйте/вставьте все URL в текстовый файл (например, VS CODE). Возможно, вам придется повторить это, потому что машина времени показывает только 50 раз
с помощью поиска и замены в VS CODE измените все строки, чтобы они выглядели так

Invoke-RestMethod -uri "https://web.archive.org/web/20200918112956id_/http://example.com/images/foobar.jpg" -outfile "images/foobar.jpg"

использование поиска/замены с помощью REGEX полезно, например, измените шаблон example.com/(.*) на example.com/$1" -outfile "$1"

Число 20200918112956 – это DateTime. Не имеет большого значения, что вы сюда вставите, потому что WayBack автоматически перенаправит на допустимую запись.

Сохраните текстовый файл как GETIT.ps1 в каталоге, например c:\stuff
создайте все необходимые каталоги, такие как c:\stuff\images
откройте powershell, cd c:\stuff и выполните скрипт.
вам, возможно, нужно будет отключить безопасность, см. ссылку

Question 8

Интересно, что официальный ответ – воспользоваться услугами третьих лиц, и они перечисляют несколько услуг в настоящее время:

https://waybackrebuilder.com
http://waybackdownloader.com
http://www.waybackmachinedownloader.com/en/
Wayback Downloads – Download Sites from Wayback Time Machine

Как скачать сайт из архива Wayback Machine на archive.org?

Вопрос или проблема

Ответ или решение

Способы скачивания сайта из Wayback Machine

Заключение