Здесь ресурс загрузки страницы и JSON занимают около 45% проиндексированных запросов в отчете о состоянии обхода, нормально ли это с точки зрения SEO?

На чтение 3 мин Опубликовано 13.10.2024

Содержание

Вопрос или проблема
Ответ или решение
1. Кrawl-бюджет
2. Robots.txt
3. Структура сайта и внутренние ссылки
4. Анализ данных
5. Дальнейшие действия
Заключение

Вопрос или проблема

В отчете о статистике индексации я заметил, что 45% запросов на индексацию предназначены для файлов JSON и инициируются ботом Page Resource Load в Google Search Console (GSC). Хотя я уже заблокировал эти файлы в robots.txt, они по-прежнему индексируются.

Меня беспокоит, что это может быть проблемой, поскольку значительная часть моего бюджета на индексацию используется на файлы JSON вместо основного контента (HTML). Можете ли вы сказать, является ли это проблемой с технической и SEO-точки зрения?

Чтобы уточнить, все найденные URL-адреса отсутствуют в основном HTML-коде, они связаны с API.

Ответ или решение

С точки зрения SEO, высокая доля запросов, приходящихся на загрузку JSON-файлов (45% согласно вашему отчету о статистике сканирования в Google Search Console), может быть поводом для беспокойства, особенно если эти файлы не имеют значительной ценности для поисковых систем. Рассмотрим несколько ключевых аспектов этой проблемы.

1. Кrawl-бюджет

Кrawl-бюджет — это количество страниц, которые поисковая система может или хочет сканировать на вашем сайте в течение определенного времени. Если значительная часть этого бюджета расходуется на JSON-файлы, это может снизить вероятность того, что Google обнаружит и проиндексирует ваши важные страницы с контентом. Это особенно актуально, если эти JSON-файлы не относятся к основной части вашего контента и не обеспечивают ценности для пользователей и поисковых систем.

2. Robots.txt

Вы упомянули, что уже заблокировали JSON-файлы в robots.txt. Однако стоит отметить, что эта блокировка не всегда является гарантией того, что поисковая система не будет их сканировать. Googlebot может игнорировать правила в robots.txt, особенно если эти файлы уже были ранее проиндексированы. Убедитесь, что ваши правила корректно настроены и протестируйте их в Google Search Console.

3. Структура сайта и внутренние ссылки

Если JSON-URLs не присутствуют в основном HTML-коде и связаны с API, это может привести к их ненужному сканированию. Пересмотрите структуру вашего сайта и внутренние ссылки. Если URLs JSON загружаются в ответ на AJAX-запросы или используются в функциональности, не связанной с основным контентом, возможно, вам стоит рассмотреть возможность контроля над их генерацией или доступностью.

4. Анализ данных

Также важно анализировать, как эти JSON-ответы используются. Если они не критичны для работы сайта, возможно, имеет смысл преобразовать их в кэшированные страницы или обеспечить доступ только через авторизованные запросы. Это убережет ваш кrawl-бюджет.

5. Дальнейшие действия

Рекомендуется предпринять следующие шаги:

Проверка настроек robots.txt: Убедитесь, что формат и синтаксис в robots.txt правильно заблокированы для JSON-файлов.
Анализ важности API: Оцените, действительно ли API и загружаемые JSON-файлы необходимы для индексации.
Оптимизация структуры сайта: Если возможно, уменьшите доступность JSON-файлов для сканирования или используйте другие механизмы кэширования.
Мониторинг: Постоянно следите за вашим отчетом о сканировании, чтобы убедиться, что принятые меры действительно помогают и кrawl-бюджет используется более эффективно.

Заключение

Таким образом, высокая доля запросов на JSON-файлы в вашем отчете о статистике сканирования может считаться проблемой с точки зрения SEO. Убедитесь, что вы принимаете все необходимые меры для оптимизации использования кrawl-бюджета и защиты важного контента от ненужного сканирования. Настройка robots.txt, пересмотр структуры сайта и тщательный анализ данных — ключевые шаги для решения вашей проблемы.