web-crawlers - ответы на вопросы

Вебмастерам

Нужны ли пробелы в файле robots.txt заменять на %20, или пробелы принимаются?

00

Вопрос или проблема Я хочу сказать Baidu не сканировать. Один из их роботов – Baidu Spider. Должно ли это быть: User-agent: Baidu%20Spider или User-agent: Baidu Spider Мы разместим пресмыкающихся и земноводных на своих местах с помощью меня и вас

Вебмастерам

Смена домена, 301 редиректы, карта сайта и индексация

00

Вопрос или проблема Я изменил свое старое доменное имя на более короткое доменное имя. Я настроил 301 редиректы и загрузил XML-карту сайта нового веб-сайта в Google Search Console. Google индексировал новый домен, но я до сих пор вижу старый домен в поиске.

Вебмастерам

Что означает User-agent: Mediapartners-Google?

00

Вопрос или проблема Я просматривал сайт поддержки Google, и там сказали: «Чтобы обновить ваш файл robots.txt и разрешить нашему краулеру доступ к вашим страницам, удалите следующие две строки текста из вашего файла robots.txt: User-agent: Mediapartners-Google

Вебмастерам

Предотвращение бот-визитов на сайт

00

Вопрос или проблема Каждый раз, когда какой-либо пользователь делится адресом моего сайта в своих твитах, на мой сайт приходят следующие боты: UnwindFetchor/1.0 (+http://www.gnip.com/) ShowyouBot (http://showyou.com/crawler) JS-Kit URL Resolver, http://js-kit.

Вебмастерам

Почему Googlebot сканирует только одну страницу?

01

Вопрос или проблема Я пытаюсь понять, почему бот Google сканирует только одну страницу на моем сайте. В консоли Google я зарегистрировал маленькую карту сайта в формате XML с 9 URL. Только один URL я отметил как высокий приоритет (0.

Вебмастерам

Как остановить Amazon от обхода веб-сайта?

02

Вопрос или проблема Я хотел бы предотвратить сбор данных о продуктах Amazon на своем сайте. Поэтому я нашел этот документ: https://developer.amazon.com/amazonbot И этот пример: User-agent: Amazonbot # User agent Amazon Disallow: /do-not-crawl/ # запретить