Понимание поведения Google Crawler: как обнаруживаются не связанно перенаправленные URL?

Question 1

Может кто-то объяснить, как пауки Google обнаруживают URL? У меня есть ситуация, когда URL (https://example.com/en/sombreros) на моем сайте перенаправляет пользователей на версию на другом языке, потому что ‘sombreros’ не является правильным английским термином для шляп. Этот URL не индексируется, так как это страница перенаправления. Интересно, что Google Search Console указывает, что этот URL был обнаружен через другой URL, который не ссылается на первый URL и нигде не упоминается на домене. Как паук Google обнаруживает такие URL? Они комбинируют названия категорий на разных языках или есть другой способ, с помощью которого они находят эти ссылки?

Question 2

Краулинг является основным способом, с помощью которого Googlebot обнаруживает URL.

Другой способ — через ссылки. Google обнаружил этот URL, потому что на страницу ссылается другая страница. Таким образом, он был обнаружен, но не индексирован.

Question 3

Если у вас есть версии на разных языках, то, по сути, вы ссылаетесь на них.

Google в первую очередь обнаруживает URL из ссылок, как внутренних, так и внешних. Из первых уст

Краулинг
Первый этап заключается в выяснении того, какие страницы существуют в сети. Нет центрального реестра всех веб-страниц, поэтому Google должен постоянно искать новые и обновленные страницы и добавлять их в свой список известных страниц. Этот процесс называется “обнаружение URL”. Некоторые страницы известны, потому что Google уже посетил их. Другие страницы обнаруживаются, когда Google следует по ссылке с известной страницы на новую страницу: например, страница-узел, такая как категория, ссылается на новый пост в блоге. Другие страницы обнаруживаются, когда вы отправляете список страниц (карту сайта) для индексации Google.

Как только Google обнаруживает URL страницы, он может посетить (или “прокрасться” на) эту страницу, чтобы выяснить, что на ней. Мы используем огромный набор компьютеров для индексации миллиардов страниц в сети. Программа, которая выполняет загрузку, называется Googlebot (также известна как краулер, робот, бот или паук). Googlebot использует алгоритмический процесс, чтобы определить, какие сайты индексировать, как часто и сколько страниц загружать с каждого сайта. Пауки Google также запрограммированы так, чтобы пытаться не индексировать сайт слишком быстро, чтобы избежать его перегрузки. Этот механизм основан на реакциях сайта (например, ошибки HTTP 500 означают “замедлитесь”).

Однако Googlebot не индексирует все страницы, которые он обнаружил. Некоторые страницы могут быть запрещены для индексации владельцем сайта, другие страницы могут быть недоступны без входа на сайт.

Во время индексации Google отображает страницу и выполняет любой JavaScript, который он находит, используя последнюю версию Chrome, аналогично тому, как ваш браузер отображает страницы, которые вы посещаете. Отображение важно, потому что веб-сайты часто зависят от JavaScript для загрузки контента на страницу, и без отображения Google может не увидеть этот контент.

Индексация зависит от того, могут ли пауки Google получить доступ к сайту. Некоторые распространенные проблемы с доступом Googlebot к сайтам включают:

Проблемы с сервером, обрабатывающим сайт

Сетевые проблемы

Правила robots.txt, запрещающие доступ Googlebot к странице

Понимание поведения Google Crawler: как обнаруживаются не связанно перенаправленные URL?

Вопрос или проблема

Ответ или решение

Понимание поведения Googlebot: Как обнаруживаются не связанные URL-адреса с редиректами?

Введение

Принципы работы краулеров

Обнаружение редиректов

Другие факторы, влияющие на обнаружение

Заключение