Вопрос или проблема
Internet Archive пережил атаку примерно месяц назад и отключил все свои услуги. Примерно на прошлой неделе они вновь запустили сервис “сохранить страницу сейчас” в Wayback Machine. С тех пор я успешно использовал его для сохранения ряда веб-страниц, так что он действительно работает.
Но по какой-то причине с тех пор Wayback Machine считает, что страницы моего личного веб-сайта все “недоступны”: если я перейду на страницу сохранить страницу сейчас Архива и введу действительный URL с моего сайта, скажем http://www.madore.org/~david/?1731283103
(последний номер здесь просто чтобы убедиться, что результат не кэшируется), Wayback Machine тратит примерно десяток секунд на загрузку и в конце концов сообщает мне:
Сохранение страницы http://www.madore.org/~david/?1731283103
Save Page Now не смог захватить этот URL, так как он был недоступен.
Вернуться к Save Page Now
Но адрес действительно доступен (если хотите протестировать, пожалуйста, используйте другой номер). На самом деле, интернет-архив действительно обращался к нему согласно журналам моего сервера:
207.241.225.61 - - [11/Nov/2024:00:59:44 +0100] "GET /~david/?1731283103 HTTP/1.1" 200 23461 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/605.1.15 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/605.1.15"
То же самое, похоже, происходит с каждой страницей моего сайта. У других сайтов нет такой проблемы, и у меня нет представления, в чем может быть разница.
Google, например, не испытывает проблем с индексацией моего сайта. Проблема специфична для Интернет Архива.
Что может происходить здесь? Как я могу попробовать это отладить?
Я пытался связаться с сотрудниками Интернет Архива, но безуспешно (я предполагаю, что у них недостаточно кадров и они перегружены работой, поэтому не могу их в этом винить).
Ответ или решение
Существует несколько причин, по которым Wayback Machine Internet Archive может считать страницы вашего веб-сайта недоступными, хотя они действительно доступны по другим источникам, таким как Google. Ниже приведены возможные причины проблемы и некоторые рекомендации по её диагностике.
Потенциальные причины проблемы
-
IP-адресный фильтр или блокировка:
- Возможно, ваш веб-сервер настроен так, что блокирует доступ определенных IP-адресов. Проверьте настройки вашего брандмауэра или сервера, чтобы выяснить, есть ли ограничения для определенных IP-адресов, в частности для адресов Internet Archive.
-
Защита от роботов:
- Убедитесь, что ваш файл robots.txt не запрещает доступ для веб-сканеров Internet Archive. Некоторые настройки могут блокировать определенныеuser-agents, что может вызвать такие проблемы.
- Проверьте файл
robots.txt
на наличие директив типаUser-agent: archive.org_bot
и убедитесь, что они не запрещают сканирование вашего сайта.
-
Заголовки HTTP:
- Проверьте, какие заголовки HTTP возвращает ваш сервер. Некоторые заголовки, такие как
X-Frame-Options
, могут предотвратить кэширование или отображение страниц другими сервисами. - Убедитесь, что сервер возвращает правильные коды ответа (например, 200 для успешных запросов).
- Проверьте, какие заголовки HTTP возвращает ваш сервер. Некоторые заголовки, такие как
-
Совместимость с протоколом:
- Убедитесь, что сервер поддерживает протоколы и сигналы, использующиеся Internet Archive. По возможности, протестируйте работу вашего сайта с помощью различных инструментов отладки.
-
Изменения после атаки:
- Поскольку вы упомянули, что Internet Archive подвергся атаке, возможно, они изменили некоторые параметры доступа или настройки сервисов после восстановления. Это изменение может повлиять на возможность доступа к вашему сайту.
Методы отладки
-
Проверка логов:
- Проверьте логи доступа вашего веб-сервера для подтверждения успешного доступа от серверов Internet Archive. Это поможет вам понять, прошло ли обращение успешно.
-
Проверка доступа через HTTP-запросы:
- Используйте инструменты, такие как
curl
, для имитации запросов от пользовательского агента Internet Archive. Это может помочь вам увидеть, какие ответы возвращает ваш сервер при доступе через их боты.
curl -A "Mozilla/5.0 (compatible; Archive.org Bot/1.0; +http://archive.org/details/archive.org_bot)" http://www.madore.org/~david/?1731283103
- Используйте инструменты, такие как
-
Снижение конфиденциальности:
- Если у вас есть блокировка по IP или другой способ ограничения доступа, попробуйте временно отключить его, чтобы убедиться, что проблема в этом.
-
Обратитесь к документации Internet Archive:
- Часто такие организации публикуют советы по устранению неполадок и диагностике. Это может быть полезным для понимания специфических требований их систем.
-
Сообщения в поддержку:
- Хотя вы уже пытались обратиться в службу поддержки, возможно, стоит попробовать несколько раз, предоставив подробную информацию о вашей проблеме и том, что было сделано для её диагностики.
Заключение
Проблема с недоступностью страниц вашего веб-сайта для Internet Archive может быть связана с различными факторами, начиная от настройки вашего сервера и заканчивая специфическими изменениями на стороне Internet Archive. Используя комбинацию методов диагностики и проверки, вы сможете выявить основные причины и, вероятно, решить проблему.