Как остановить Amazon от обхода веб-сайта?

Question 1

Я хотел бы предотвратить сбор данных о продуктах Amazon на своем сайте. Поэтому я нашел этот документ: https://developer.amazon.com/amazonbot

И этот пример:

User-agent: Amazonbot             # User agent Amazon
Disallow: /do-not-crawl/             # запретить этот каталог

Так что, если я добавлю:

User-agent: Amazonbot             # User agent Amazon
Disallow: /                       # запретить доступ ко всему сайту

или, возможно

User-agent: Amazonbot             # User agent Amazon
Disallow: /Technology/            # запретить доступ к странице категории Технология

В частности, предотвратит ли это доступ ко всем продуктам на странице Технологий на сайте?

Что меня также беспокоит, так это упоминание о задержке обхода на их странице «Помощь»?

У меня сейчас есть:

User-agent: *
Disallow: /admin/
Disallow: /api/
Crawl-delay: 1

User-agent: Amazonbot 
Disallow: /

Что явно имеет задержку обхода и этот комментарий на их странице «Помощь»:

На данный момент AmazonBot не поддерживает директиву crawl-delay в robots.txt и метатегах robots на HTML страницах, таких как “nofollow” и “noindex”.

Question 2

Установка политики robots.txt не «предотвращает» никакому роботу индексировать ваш сайт. Это скорее как вежливая просьба не делать этого. Робот может уважать вашу просьбу или игнорировать её.

Поскольку Amazon прямо заявил, что они действительно уважают robots.txt, но не поддерживают crawl-delay, я бы ожидал, что они поступят именно так. Хотя вы можете блокировать их робота различными способами, используя данные, предоставленные на их сайте:

Идентификация по User-Agent

Вы можете проверять User-Agent, содержащий строку “Amazonbot” (или просто “amazon”), и выдавать им ошибку 403. Существует несколько способов сделать это, вы можете добавить следующее в ваш VHost файл, если используете Apache:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} amazonbot [NC]
RewriteRule . - [R=403,L]

Вы также можете использовать свой межсетевой экран для выполнения этой функции. Если вы используете CloudFlare, они предоставляют встроенную функцию для блокировки определенных UA. Вы также можете использовать iptables для этого, однако это также скажется на производительности, так как каждый запрос придется проверять. Тем не менее, если вы хотите это настроить, посмотрите на iptables -m string -h.

Идентификация по IP-адресу и обратному DNS

Это будет немного сложнее, но в общем вы можете взять IP-адрес бота, получающего доступ к вашему сайту, выполнить обратный DNS-запрос по этому адресу, а затем проверить, содержит ли домен “amazon”. Я определенно не советовал бы это использовать как способ обрабатывать каждый запрос к вашему сайту, так как это сильно ударит по производительности; однако вы можете ретроспективно просматривать свои журналы с помощью такого скрипта, чтобы выявить неслухняного Amazonbot, который не уважает robots.txt.

Как остановить Amazon от обхода веб-сайта?

Вопрос или проблема

Ответ или решение