Почему архиватор Wayback Machine считает, что все страницы моего веб-сайта недоступны?

Содержание

Вопрос или проблема
Ответ или решение
Потенциальные причины проблемы
Методы отладки
Заключение

Вопрос или проблема

Internet Archive пережил атаку примерно месяц назад и отключил все свои услуги. Примерно на прошлой неделе они вновь запустили сервис “сохранить страницу сейчас” в Wayback Machine. С тех пор я успешно использовал его для сохранения ряда веб-страниц, так что он действительно работает.

Но по какой-то причине с тех пор Wayback Machine считает, что страницы моего личного веб-сайта все “недоступны”: если я перейду на страницу сохранить страницу сейчас Архива и введу действительный URL с моего сайта, скажем http://www.madore.org/~david/?1731283103 (последний номер здесь просто чтобы убедиться, что результат не кэшируется), Wayback Machine тратит примерно десяток секунд на загрузку и в конце концов сообщает мне:

Сохранение страницы http://www.madore.org/~david/?1731283103

Save Page Now не смог захватить этот URL, так как он был недоступен.

Вернуться к Save Page Now

Но адрес действительно доступен (если хотите протестировать, пожалуйста, используйте другой номер). На самом деле, интернет-архив действительно обращался к нему согласно журналам моего сервера:

207.241.225.61 - - [11/Nov/2024:00:59:44 +0100] "GET /~david/?1731283103 HTTP/1.1" 200 23461 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/605.1.15 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/605.1.15"

То же самое, похоже, происходит с каждой страницей моего сайта. У других сайтов нет такой проблемы, и у меня нет представления, в чем может быть разница.

Google, например, не испытывает проблем с индексацией моего сайта. Проблема специфична для Интернет Архива.

Что может происходить здесь? Как я могу попробовать это отладить?

Я пытался связаться с сотрудниками Интернет Архива, но безуспешно (я предполагаю, что у них недостаточно кадров и они перегружены работой, поэтому не могу их в этом винить).

Ответ или решение

Существует несколько причин, по которым Wayback Machine Internet Archive может считать страницы вашего веб-сайта недоступными, хотя они действительно доступны по другим источникам, таким как Google. Ниже приведены возможные причины проблемы и некоторые рекомендации по её диагностике.

Потенциальные причины проблемы

IP-адресный фильтр или блокировка:
- Возможно, ваш веб-сервер настроен так, что блокирует доступ определенных IP-адресов. Проверьте настройки вашего брандмауэра или сервера, чтобы выяснить, есть ли ограничения для определенных IP-адресов, в частности для адресов Internet Archive.
Защита от роботов:
- Убедитесь, что ваш файл robots.txt не запрещает доступ для веб-сканеров Internet Archive. Некоторые настройки могут блокировать определенныеuser-agents, что может вызвать такие проблемы.
- Проверьте файл robots.txt на наличие директив типа User-agent: archive.org_bot и убедитесь, что они не запрещают сканирование вашего сайта.
Заголовки HTTP:
- Проверьте, какие заголовки HTTP возвращает ваш сервер. Некоторые заголовки, такие как X-Frame-Options, могут предотвратить кэширование или отображение страниц другими сервисами.
- Убедитесь, что сервер возвращает правильные коды ответа (например, 200 для успешных запросов).
Совместимость с протоколом:
- Убедитесь, что сервер поддерживает протоколы и сигналы, использующиеся Internet Archive. По возможности, протестируйте работу вашего сайта с помощью различных инструментов отладки.
Изменения после атаки:
- Поскольку вы упомянули, что Internet Archive подвергся атаке, возможно, они изменили некоторые параметры доступа или настройки сервисов после восстановления. Это изменение может повлиять на возможность доступа к вашему сайту.

Методы отладки

Проверка логов:
- Проверьте логи доступа вашего веб-сервера для подтверждения успешного доступа от серверов Internet Archive. Это поможет вам понять, прошло ли обращение успешно.
Проверка доступа через HTTP-запросы:
- Используйте инструменты, такие как curl, для имитации запросов от пользовательского агента Internet Archive. Это может помочь вам увидеть, какие ответы возвращает ваш сервер при доступе через их боты.
```
curl -A "Mozilla/5.0 (compatible; Archive.org Bot/1.0; +http://archive.org/details/archive.org_bot)" http://www.madore.org/~david/?1731283103
```
Снижение конфиденциальности:
- Если у вас есть блокировка по IP или другой способ ограничения доступа, попробуйте временно отключить его, чтобы убедиться, что проблема в этом.
Обратитесь к документации Internet Archive:
- Часто такие организации публикуют советы по устранению неполадок и диагностике. Это может быть полезным для понимания специфических требований их систем.
Сообщения в поддержку:
- Хотя вы уже пытались обратиться в службу поддержки, возможно, стоит попробовать несколько раз, предоставив подробную информацию о вашей проблеме и том, что было сделано для её диагностики.

Заключение

Проблема с недоступностью страниц вашего веб-сайта для Internet Archive может быть связана с различными факторами, начиная от настройки вашего сервера и заканчивая специфическими изменениями на стороне Internet Archive. Используя комбинацию методов диагностики и проверки, вы сможете выявить основные причины и, вероятно, решить проблему.