Понимание поведения Google Crawler: как обнаруживаются не связанно перенаправленные URL?

Вопрос или проблема

Может кто-то объяснить, как пауки Google обнаруживают URL? У меня есть ситуация, когда URL (https://example.com/en/sombreros) на моем сайте перенаправляет пользователей на версию на другом языке, потому что ‘sombreros’ не является правильным английским термином для шляп. Этот URL не индексируется, так как это страница перенаправления. Интересно, что Google Search Console указывает, что этот URL был обнаружен через другой URL, который не ссылается на первый URL и нигде не упоминается на домене. Как паук Google обнаруживает такие URL? Они комбинируют названия категорий на разных языках или есть другой способ, с помощью которого они находят эти ссылки?

Краулинг является основным способом, с помощью которого Googlebot обнаруживает URL.

Другой способ — через ссылки. Google обнаружил этот URL, потому что на страницу ссылается другая страница. Таким образом, он был обнаружен, но не индексирован.

Если у вас есть версии на разных языках, то, по сути, вы ссылаетесь на них.

Google в первую очередь обнаруживает URL из ссылок, как внутренних, так и внешних. Из первых уст

Краулинг
Первый этап заключается в выяснении того, какие страницы существуют в сети. Нет центрального реестра всех веб-страниц, поэтому Google должен постоянно искать новые и обновленные страницы и добавлять их в свой список известных страниц. Этот процесс называется “обнаружение URL”. Некоторые страницы известны, потому что Google уже посетил их. Другие страницы обнаруживаются, когда Google следует по ссылке с известной страницы на новую страницу: например, страница-узел, такая как категория, ссылается на новый пост в блоге. Другие страницы обнаруживаются, когда вы отправляете список страниц (карту сайта) для индексации Google.

Как только Google обнаруживает URL страницы, он может посетить (или “прокрасться” на) эту страницу, чтобы выяснить, что на ней. Мы используем огромный набор компьютеров для индексации миллиардов страниц в сети. Программа, которая выполняет загрузку, называется Googlebot (также известна как краулер, робот, бот или паук). Googlebot использует алгоритмический процесс, чтобы определить, какие сайты индексировать, как часто и сколько страниц загружать с каждого сайта. Пауки Google также запрограммированы так, чтобы пытаться не индексировать сайт слишком быстро, чтобы избежать его перегрузки. Этот механизм основан на реакциях сайта (например, ошибки HTTP 500 означают “замедлитесь”).

Однако Googlebot не индексирует все страницы, которые он обнаружил. Некоторые страницы могут быть запрещены для индексации владельцем сайта, другие страницы могут быть недоступны без входа на сайт.

Во время индексации Google отображает страницу и выполняет любой JavaScript, который он находит, используя последнюю версию Chrome, аналогично тому, как ваш браузер отображает страницы, которые вы посещаете. Отображение важно, потому что веб-сайты часто зависят от JavaScript для загрузки контента на страницу, и без отображения Google может не увидеть этот контент.

Индексация зависит от того, могут ли пауки Google получить доступ к сайту. Некоторые распространенные проблемы с доступом Googlebot к сайтам включают:

  • Проблемы с сервером, обрабатывающим сайт
  • Сетевые проблемы
  • Правила robots.txt, запрещающие доступ Googlebot к странице

Ответ или решение

Понимание поведения Googlebot: Как обнаруживаются не связанные URL-адреса с редиректами?

Введение

Поисковые системы, такие как Google, применяют сложные алгоритмы и стратегии для обнаружения и индексирования страниц в Интернете. Обычно используются ссылки как основной способ нахождения новых URL-адресов. Однако случается, что URL-адреса, которые не содержатся на страницах вашего сайта, могут быть обнаружены и зарегистрированы краулерами Google. В этом ответе подробно рассмотрим, как это происходит, а также применим конкретные примеры и аспекты вашего случая с редиректом URL для "sombreros".

Принципы работы краулеров

Краулеры Google (известные как Googlebot) использует алгоритмические процессы для поиска и обхода веб-страниц. Как упоминалось в руководстве Google, автоматизированные системы регулярно ищут новые или обновленные страницы, основываясь на:

  1. Ссылках: Googlebot исследует известные страницы и отслеживает ссылки на новые страницы. Это может быть внутренние ссылки на вашем сайте или внешние ссылки с других веб-сайтов.

  2. Sitemap: Владельцы сайтов могут отправлять карту сайта (sitemap), в которой перечислены все URLs сайта для упрощения обнаружения.

  3. Упоминания в других источниках: Если ваш сайт упоминается в новостях, блогах или социальных сетях, это также может привести к обнаружению его URL.

Обнаружение редиректов

В вашем случае, URL-адрес <https://example.com/en/sombreros> перенаправляет на другую версию страницы. Несмотря на то что он не индексируется как отдельная страница, Google все равно удалось его обнаружить. Отмеченный вами факт, что этот URL был найден через другой адрес без видимых ссылок, может быть результатом следующих механизмов:

  1. Контекстные редиректы: Google может интерпретировать контент и контекст ваших страниц. Дело в том, что краулеры анализируют текст и названия категорий, чтобы понять, что оно может обозначать в разных языках. Например, если вы имеете страницу с названием "Hats", а на ней есть ссылка на "sombreros", Google может установить связь между этими двумя понятиями даже без прямой ссылки.

  2. Ссылки на уровне гиперссылок: Возможно, на других ресурсах (например, внешние сайты или партнеры) ведутся ссылки на ваш адрес, который может ссылаться на конкретные языковые версии. Даже если эти ссылки не являются напрямую связанными на вашем сайте, они тем не менее могут сделать ваш URL доступным для краулеров.

  3. Алгоритмическое понимание: Google используют семантические технологии и алгоритмическое обучение для распознавания и связывания терминов между языками. Это может касаться категории товаров, названий и других аспектов, что позволяет краулерам объединять данные между разными языковыми версиями вашего сайта.

Другие факторы, влияющие на обнаружение

Существуют и другие аспекты, которые могут повлиять на обнаружение URL:

  • Система кэширования: Google хранит кэш различных веб-страниц, что позволяет ему возвращаться к этим страницам позже без нового обхода.
  • Поведение пользователей: Если пользователи часто переходят на определенные URL-адреса, это может также сигнализировать о необходимости их учета в индексировании.

Заключение

Понимание работы Googlebot и его механизмов обнаружения является ключевым фактором в управлении видимостью вашего сайта. Краулеры используют множество источников и алгоритмов для нахождения URL-адресов, включая как структурированные ссылки, так и неявные связи между контентом. Важно обеспечить правильную оптимизацию SEO и устранить недоразумения, особенно если у вас многоязычный сайт. Разбирайтесь в том, как разные языковые версии могут быть связаны, и используйте карты сайта для упрощения процесса обнаружения.

С этой информацией вы сможете лучше понять поведение Googlebot и взять контроль над процессом индексации вашего контента.

Оцените материал
Добавить комментарий

Капча загружается...