Почему архиватор Wayback Machine считает, что все страницы моего веб-сайта недоступны?

Вопрос или проблема

Internet Archive пережил атаку примерно месяц назад и отключил все свои услуги. Примерно на прошлой неделе они вновь запустили сервис “сохранить страницу сейчас” в Wayback Machine. С тех пор я успешно использовал его для сохранения ряда веб-страниц, так что он действительно работает.

Но по какой-то причине с тех пор Wayback Machine считает, что страницы моего личного веб-сайта все “недоступны”: если я перейду на страницу сохранить страницу сейчас Архива и введу действительный URL с моего сайта, скажем http://www.madore.org/~david/?1731283103 (последний номер здесь просто чтобы убедиться, что результат не кэшируется), Wayback Machine тратит примерно десяток секунд на загрузку и в конце концов сообщает мне:

Сохранение страницы http://www.madore.org/~david/?1731283103

Save Page Now не смог захватить этот URL, так как он был недоступен.

Вернуться к Save Page Now

Но адрес действительно доступен (если хотите протестировать, пожалуйста, используйте другой номер). На самом деле, интернет-архив действительно обращался к нему согласно журналам моего сервера:

207.241.225.61 - - [11/Nov/2024:00:59:44 +0100] "GET /~david/?1731283103 HTTP/1.1" 200 23461 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/605.1.15 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/605.1.15"

То же самое, похоже, происходит с каждой страницей моего сайта. У других сайтов нет такой проблемы, и у меня нет представления, в чем может быть разница.

Google, например, не испытывает проблем с индексацией моего сайта. Проблема специфична для Интернет Архива.

Что может происходить здесь? Как я могу попробовать это отладить?

Я пытался связаться с сотрудниками Интернет Архива, но безуспешно (я предполагаю, что у них недостаточно кадров и они перегружены работой, поэтому не могу их в этом винить).

Ответ или решение

Существует несколько причин, по которым Wayback Machine Internet Archive может считать страницы вашего веб-сайта недоступными, хотя они действительно доступны по другим источникам, таким как Google. Ниже приведены возможные причины проблемы и некоторые рекомендации по её диагностике.

Потенциальные причины проблемы

  1. IP-адресный фильтр или блокировка:

    • Возможно, ваш веб-сервер настроен так, что блокирует доступ определенных IP-адресов. Проверьте настройки вашего брандмауэра или сервера, чтобы выяснить, есть ли ограничения для определенных IP-адресов, в частности для адресов Internet Archive.
  2. Защита от роботов:

    • Убедитесь, что ваш файл robots.txt не запрещает доступ для веб-сканеров Internet Archive. Некоторые настройки могут блокировать определенныеuser-agents, что может вызвать такие проблемы.
    • Проверьте файл robots.txt на наличие директив типа User-agent: archive.org_bot и убедитесь, что они не запрещают сканирование вашего сайта.
  3. Заголовки HTTP:

    • Проверьте, какие заголовки HTTP возвращает ваш сервер. Некоторые заголовки, такие как X-Frame-Options, могут предотвратить кэширование или отображение страниц другими сервисами.
    • Убедитесь, что сервер возвращает правильные коды ответа (например, 200 для успешных запросов).
  4. Совместимость с протоколом:

    • Убедитесь, что сервер поддерживает протоколы и сигналы, использующиеся Internet Archive. По возможности, протестируйте работу вашего сайта с помощью различных инструментов отладки.
  5. Изменения после атаки:

    • Поскольку вы упомянули, что Internet Archive подвергся атаке, возможно, они изменили некоторые параметры доступа или настройки сервисов после восстановления. Это изменение может повлиять на возможность доступа к вашему сайту.

Методы отладки

  1. Проверка логов:

    • Проверьте логи доступа вашего веб-сервера для подтверждения успешного доступа от серверов Internet Archive. Это поможет вам понять, прошло ли обращение успешно.
  2. Проверка доступа через HTTP-запросы:

    • Используйте инструменты, такие как curl, для имитации запросов от пользовательского агента Internet Archive. Это может помочь вам увидеть, какие ответы возвращает ваш сервер при доступе через их боты.
    curl -A "Mozilla/5.0 (compatible; Archive.org Bot/1.0; +http://archive.org/details/archive.org_bot)" http://www.madore.org/~david/?1731283103
  3. Снижение конфиденциальности:

    • Если у вас есть блокировка по IP или другой способ ограничения доступа, попробуйте временно отключить его, чтобы убедиться, что проблема в этом.
  4. Обратитесь к документации Internet Archive:

    • Часто такие организации публикуют советы по устранению неполадок и диагностике. Это может быть полезным для понимания специфических требований их систем.
  5. Сообщения в поддержку:

    • Хотя вы уже пытались обратиться в службу поддержки, возможно, стоит попробовать несколько раз, предоставив подробную информацию о вашей проблеме и том, что было сделано для её диагностики.

Заключение

Проблема с недоступностью страниц вашего веб-сайта для Internet Archive может быть связана с различными факторами, начиная от настройки вашего сервера и заканчивая специфическими изменениями на стороне Internet Archive. Используя комбинацию методов диагностики и проверки, вы сможете выявить основные причины и, вероятно, решить проблему.

Оцените материал
Добавить комментарий

Капча загружается...