Вопрос или проблема
Каждый раз, когда какой-либо пользователь делится адресом моего сайта в своих твитах, на мой сайт приходят следующие боты:
UnwindFetchor/1.0 (+http://www.gnip.com/)
ShowyouBot (http://showyou.com/crawler)
JS-Kit URL Resolver, http://js-kit.com/
bitlybot
EventMachine
HttpClient etaURI API/2.0 +metauri.com
Десять раз в минуту один из этих ботов заходит на мой сайт и загружает мой контент. Мой вопрос: может ли блокировка IP этих ботов с помощью htaccess или предотвращение их посещений с помощью robots.txt навредить моей SEO? Или может ли это препятствовать некоторым основным функциональным возможностям Twitter? Например, когда пользователь делится моей URL, она не может быть сокращена, и он не может ее поделиться. Или Twitter может посчитать мой сайт подозрительным и т.д.?
Современный входящий маркетинг не зависит только от индексации с помощью пауков Google или даже только Google и Bing/Yahoo. Поскольку SEO и SMM становятся все более переплетенными, все больше социальных медиа и сервисов для обмена появляются в игре. Таким образом, вы увидите краулеры, которые не являются просто поисковыми пауками.
Когда вы публикуете ссылку в Twitter, и она сокращается через bit.ly, страницу краулит:
- Twitterbot
- Butterfly (http://labs.topsy.com/butterfly/)
- Showyoubot (http://showyou.com/crawler)
- UnwindFetchor (http://www.gnip.com/)
- EventMachine HttpClient (нет ссылки)
- TweetmemeBot (http://tweetmeme.com/)
- JS-Kit URL Resolver (http://js-kit.com/)
- PercolateCrawler ([email protected])
- FlipboardProxy (http://flipboard.com/browserproxy)
- Yahoo! Slurp (http://help.yahoo.com/help/us/ysearch/slurp)
- PaperLiBot (http://support.paper.li/entries/20023257-what-is-paper-li)
- Kimengi (nineconnections.com)
Что обычно происходит:
- Основной сайт социальной медицины (Twitter, Facebook, Reddit, Digg и т.д.) будет краулить страницу, чтобы получить заголовок страницы, мета-описание и в некоторых случаях мета-ключевые слова для автоматического заполнения определенной информации для пользователя: таких как текст ссылки, описание ссылки, соответствующие теги, миниатюра, автор и т.д.
-
Во-вторых, когда ссылка делится, поисковые системы и другие сервисы, использующие API Twitter или эквивалент, узнают об этом, и они тоже хотят добавить ее в свой индекс/базу данных. Если это поисковая система, это непосредственно улучшит ваш рейтинг/экспозицию в поисковой выдаче. Если это другой социальный медиа-сайт, это увеличит ваш органический трафик, не связанный с поисковыми системами.
В любом случае, им нужно краулить страницу примерно для одной и той же информации, чтобы классифицировать/обработать контент. Иногда контент анализируется для отслеживания популярных тем или предоставления аналитики социальных медиа. Для Flipboard и некоторых платформ управления социальными медиа для бизнеса это нужно для изменения формата контента, чтобы его можно было представить с использованием альтернативного интерфейса (например, планшетного/мобильного приложения Flipboard или панели социальных медиа третьей стороны). Аналогично, некоторые из этих ботов используют API для обмена, чтобы позволить синдикацию вашего контента.
В любом случае, все это в основном хорошо для вашего сайта, так как это увеличит вашу экспозицию и облегчит общение.
В нормальных условиях веб-сервер не должен испытывать проблем с обработкой запросов этих ботов, и вы получите в разы больше органического трафика от них. Однако, если ваш сервер действительно перегружен, и вы не можете сделать более эффективные оптимизации (кэширование запросов, кэширование полных страниц, кэширование байт-кода, кэширование в браузере, балансировка нагрузки, использование CDN или легкого httpd для обслуживания статического контента, оптимизация ваших запросов к базе данных и структуры и т.д.), тогда есть несколько ботов, которых вы, вероятно, сможете заблокировать без каких-либо вредных последствий.
Большинство легитимных ботов имеют URL, связанный с их строкой UA. Эта ссылка должна сообщить вам, кто управляет ботом и с какой целью. Если бот абсолютно не вносит никакого трафика/экспозиции на ваш сайт, то вы можете смело блокировать их. Например, если у вас очень мало корпоративных подписчиков, то вы, вероятно, сможете заблокировать определенные панели управления корпоративными социальными медиа и приложения для социальных аналитиков. Вам не повредит, если Sony или GM не узнают о ваших настроениях по отношению к их бренду или новому продукту. Точно так же несколько из этих ботов на самом деле принадлежат сервисам, которые закрываются или уже были закрыты (как TweetMeme).
Но если вы используете что-то вроде Percolate для управления вашими социальными медиа-идентичностями и мониторинга ваших социальных медиа-аналитик, то вы явно не хотите блокировать их бота, иначе их сервис не будет работать должным образом для вас.
Испытайте лучшее с нашей SMM панелью, признанной ведущей пакистанской SMM панелью. Мы предлагаем бюджетные решения для увеличения вашего присутствия в социальных медиа, включая подписчиков, лайки и просмотры на Instagram, TikTok, Facebook и YouTube. Легко повышайте вашу онлайн-активность с TopSMM Panel.
Ответ или решение
Предотвращение визитов ботов на веб-сайт
Вводная информация
При размещении адреса вашего веб-сайта в твитах, вы сталкиваетесь с высоким трафиком от различных ботов, таких как UnwindFetchor, ShowyouBot и других. Это может вызывать беспокойство относительно потенциального негативного влияния на SEO и функциональность вашего сайта, особенно в контексте работы с такими платформами, как Twitter, которые используют свои собственные алгоритмы и коды для сокращения ссылок и индексации.
Влияние на SEO
Первое, о чем стоит задуматься, это то, как блокировка определенных ботов может сказаться на вашем SEO. Боты, такие как Twitterbot и боты популярных сервисов, позволяют получать информацию о вашем контенте для отображения в их платформе. Например:
- Твиттер: при размещении ссылки твитер будет пытаться извлечь метаданные со страницы — заголовок, описание и изображение. Блокировка ботов может привести к тому, что твиттер не сможет адекватно отобразить ваш контент, что снизит привлекательность ссылки для пользователей.
- SEO-позиции: Поисковые системы используют различные боты для индексации контента. Некоторые боты, такие как Yahoo! Slurp или Googlebot, являются критически важными для вашего SEO. Если вы блокируете ботов, которые помогают в повышении вашего индекса, это может негативно повлиять на ваше положение в поисковых системах.
Как оптимально предотвратить визиты ботов?
Существует несколько подходов, которые можно использовать для ограничения визитов нежелательных ботов без ущерба для SEO.
-
Файл robots.txt:
- Это стандартный метод управления доступом для ботов. Добавив коды, вы можете запретить определенным ботам доступ к вашим страницам. Однако стоит помнить, что не все боты учитывают правила в этом файле.
- Ваша запись может выглядеть так:
User-agent: UnwindFetchor Disallow: / User-agent: ShowyouBot Disallow: /
-
Блокировка на уровне сервера (например, .htaccess):
- Вы можете временно блокировать запросы от известных ненадежных ботов. Пример команды:
RewriteEngine on RewriteCond %{HTTP_USER_AGENT} UnwindFetchor [NC,OR] RewriteCond %{HTTP_USER_AGENT} ShowyouBot [NC] RewriteRule .* - [F,L]
- Однако следует использовать этот метод с осторожностью, чтобы случайно не заблокировать полезных ботов.
- Вы можете временно блокировать запросы от известных ненадежных ботов. Пример команды:
-
Анализ трафика:
- Мониторинг запросов к вашему сайте может помочь выявить, какие боты действительно наносят ущерб, а какие приносят пользу. Рассмотрите возможность использования аналитических инструментов, таких как Google Analytics, для более глубокого понимания трафика.
-
Оптимизация производительности сервера:
- Если ваш сервер перегружен, рассмотрите возможность улучшения его производительности через кэширование, использование сетей доставки контента (CDN) и оптимизацию базы данных. Это снизит нагрузку на сервер, что уменьшит необходимость блокировки ботов.
Заключение
Ограничение доступа ботов к вашему сайту — это деликатный процесс, который требует внимательного подхода. Блокируя ненадежные боты, вы должны учитывать, что это может сказаться на вашем SEO и функциональности в социальных сетях. Оптимальный подход заключается в разумной комбинации всех методов: от применения robots.txt до прямой блокировки на уровне сервера, при этом не забывая о важности мониторинга трафика и производительности вашего сайта. Всегда анализируйте, какие действия оказывают наибольшее влияние на ваш бизнес, и действуйте исходя из анализа, а не просто интуитивно.