Предотвращение бот-визитов на сайт

Вопрос или проблема

Каждый раз, когда какой-либо пользователь делится адресом моего сайта в своих твитах, на мой сайт приходят следующие боты:

UnwindFetchor/1.0 (+http://www.gnip.com/)
ShowyouBot (http://showyou.com/crawler)
JS-Kit URL Resolver, http://js-kit.com/
bitlybot
EventMachine
HttpClient etaURI API/2.0 +metauri.com

Десять раз в минуту один из этих ботов заходит на мой сайт и загружает мой контент. Мой вопрос: может ли блокировка IP этих ботов с помощью htaccess или предотвращение их посещений с помощью robots.txt навредить моей SEO? Или может ли это препятствовать некоторым основным функциональным возможностям Twitter? Например, когда пользователь делится моей URL, она не может быть сокращена, и он не может ее поделиться. Или Twitter может посчитать мой сайт подозрительным и т.д.?

Современный входящий маркетинг не зависит только от индексации с помощью пауков Google или даже только Google и Bing/Yahoo. Поскольку SEO и SMM становятся все более переплетенными, все больше социальных медиа и сервисов для обмена появляются в игре. Таким образом, вы увидите краулеры, которые не являются просто поисковыми пауками.

Когда вы публикуете ссылку в Twitter, и она сокращается через bit.ly, страницу краулит:

  • Twitterbot
  • Butterfly (http://labs.topsy.com/butterfly/)
  • Showyoubot (http://showyou.com/crawler)
  • UnwindFetchor (http://www.gnip.com/)
  • EventMachine HttpClient (нет ссылки)
  • TweetmemeBot (http://tweetmeme.com/)
  • JS-Kit URL Resolver (http://js-kit.com/)
  • PercolateCrawler ([email protected])
  • FlipboardProxy (http://flipboard.com/browserproxy)
  • Yahoo! Slurp (http://help.yahoo.com/help/us/ysearch/slurp)
  • PaperLiBot (http://support.paper.li/entries/20023257-what-is-paper-li)
  • Kimengi (nineconnections.com)

Что обычно происходит:

  1. Основной сайт социальной медицины (Twitter, Facebook, Reddit, Digg и т.д.) будет краулить страницу, чтобы получить заголовок страницы, мета-описание и в некоторых случаях мета-ключевые слова для автоматического заполнения определенной информации для пользователя: таких как текст ссылки, описание ссылки, соответствующие теги, миниатюра, автор и т.д.
  2. Во-вторых, когда ссылка делится, поисковые системы и другие сервисы, использующие API Twitter или эквивалент, узнают об этом, и они тоже хотят добавить ее в свой индекс/базу данных. Если это поисковая система, это непосредственно улучшит ваш рейтинг/экспозицию в поисковой выдаче. Если это другой социальный медиа-сайт, это увеличит ваш органический трафик, не связанный с поисковыми системами.

    В любом случае, им нужно краулить страницу примерно для одной и той же информации, чтобы классифицировать/обработать контент. Иногда контент анализируется для отслеживания популярных тем или предоставления аналитики социальных медиа. Для Flipboard и некоторых платформ управления социальными медиа для бизнеса это нужно для изменения формата контента, чтобы его можно было представить с использованием альтернативного интерфейса (например, планшетного/мобильного приложения Flipboard или панели социальных медиа третьей стороны). Аналогично, некоторые из этих ботов используют API для обмена, чтобы позволить синдикацию вашего контента.

    В любом случае, все это в основном хорошо для вашего сайта, так как это увеличит вашу экспозицию и облегчит общение.

В нормальных условиях веб-сервер не должен испытывать проблем с обработкой запросов этих ботов, и вы получите в разы больше органического трафика от них. Однако, если ваш сервер действительно перегружен, и вы не можете сделать более эффективные оптимизации (кэширование запросов, кэширование полных страниц, кэширование байт-кода, кэширование в браузере, балансировка нагрузки, использование CDN или легкого httpd для обслуживания статического контента, оптимизация ваших запросов к базе данных и структуры и т.д.), тогда есть несколько ботов, которых вы, вероятно, сможете заблокировать без каких-либо вредных последствий.

Большинство легитимных ботов имеют URL, связанный с их строкой UA. Эта ссылка должна сообщить вам, кто управляет ботом и с какой целью. Если бот абсолютно не вносит никакого трафика/экспозиции на ваш сайт, то вы можете смело блокировать их. Например, если у вас очень мало корпоративных подписчиков, то вы, вероятно, сможете заблокировать определенные панели управления корпоративными социальными медиа и приложения для социальных аналитиков. Вам не повредит, если Sony или GM не узнают о ваших настроениях по отношению к их бренду или новому продукту. Точно так же несколько из этих ботов на самом деле принадлежат сервисам, которые закрываются или уже были закрыты (как TweetMeme).

Но если вы используете что-то вроде Percolate для управления вашими социальными медиа-идентичностями и мониторинга ваших социальных медиа-аналитик, то вы явно не хотите блокировать их бота, иначе их сервис не будет работать должным образом для вас.

Испытайте лучшее с нашей SMM панелью, признанной ведущей пакистанской SMM панелью. Мы предлагаем бюджетные решения для увеличения вашего присутствия в социальных медиа, включая подписчиков, лайки и просмотры на Instagram, TikTok, Facebook и YouTube. Легко повышайте вашу онлайн-активность с TopSMM Panel.

Ответ или решение

Предотвращение визитов ботов на веб-сайт

Вводная информация

При размещении адреса вашего веб-сайта в твитах, вы сталкиваетесь с высоким трафиком от различных ботов, таких как UnwindFetchor, ShowyouBot и других. Это может вызывать беспокойство относительно потенциального негативного влияния на SEO и функциональность вашего сайта, особенно в контексте работы с такими платформами, как Twitter, которые используют свои собственные алгоритмы и коды для сокращения ссылок и индексации.

Влияние на SEO

Первое, о чем стоит задуматься, это то, как блокировка определенных ботов может сказаться на вашем SEO. Боты, такие как Twitterbot и боты популярных сервисов, позволяют получать информацию о вашем контенте для отображения в их платформе. Например:

  1. Твиттер: при размещении ссылки твитер будет пытаться извлечь метаданные со страницы — заголовок, описание и изображение. Блокировка ботов может привести к тому, что твиттер не сможет адекватно отобразить ваш контент, что снизит привлекательность ссылки для пользователей.
  2. SEO-позиции: Поисковые системы используют различные боты для индексации контента. Некоторые боты, такие как Yahoo! Slurp или Googlebot, являются критически важными для вашего SEO. Если вы блокируете ботов, которые помогают в повышении вашего индекса, это может негативно повлиять на ваше положение в поисковых системах.

Как оптимально предотвратить визиты ботов?

Существует несколько подходов, которые можно использовать для ограничения визитов нежелательных ботов без ущерба для SEO.

  1. Файл robots.txt:

    • Это стандартный метод управления доступом для ботов. Добавив коды, вы можете запретить определенным ботам доступ к вашим страницам. Однако стоит помнить, что не все боты учитывают правила в этом файле.
    • Ваша запись может выглядеть так:
      User-agent: UnwindFetchor
      Disallow: /
      User-agent: ShowyouBot
      Disallow: /
  2. Блокировка на уровне сервера (например, .htaccess):

    • Вы можете временно блокировать запросы от известных ненадежных ботов. Пример команды:
      RewriteEngine on
      RewriteCond %{HTTP_USER_AGENT} UnwindFetchor [NC,OR]
      RewriteCond %{HTTP_USER_AGENT} ShowyouBot [NC]
      RewriteRule .* - [F,L]
    • Однако следует использовать этот метод с осторожностью, чтобы случайно не заблокировать полезных ботов.
  3. Анализ трафика:

    • Мониторинг запросов к вашему сайте может помочь выявить, какие боты действительно наносят ущерб, а какие приносят пользу. Рассмотрите возможность использования аналитических инструментов, таких как Google Analytics, для более глубокого понимания трафика.
  4. Оптимизация производительности сервера:

    • Если ваш сервер перегружен, рассмотрите возможность улучшения его производительности через кэширование, использование сетей доставки контента (CDN) и оптимизацию базы данных. Это снизит нагрузку на сервер, что уменьшит необходимость блокировки ботов.

Заключение

Ограничение доступа ботов к вашему сайту — это деликатный процесс, который требует внимательного подхода. Блокируя ненадежные боты, вы должны учитывать, что это может сказаться на вашем SEO и функциональности в социальных сетях. Оптимальный подход заключается в разумной комбинации всех методов: от применения robots.txt до прямой блокировки на уровне сервера, при этом не забывая о важности мониторинга трафика и производительности вашего сайта. Всегда анализируйте, какие действия оказывают наибольшее влияние на ваш бизнес, и действуйте исходя из анализа, а не просто интуитивно.

Оцените материал
Добавить комментарий

Капча загружается...