Вопрос или проблема
Кажется, что каждый форум, блог на wordpress и другие подобные сайты регулярно посещаются ботами, которые используют их для размещения сомнительных рекламных объявлений.
Мне интересно, как боты находят такие сайты?
Я понимаю — поправьте меня, если я ошибаюсь — что как только бот находит сайт, он выполняет некоторые простые проверки, чтобы выяснить, работает ли он на программном обеспечении, таком как wordpress, phpbb и т.д. Хотя это можно скрыть, чаще всего этого не делают, и поэтому такие проверки, как запросы к /wp-admin.php, достаточно.
И как только бот удостоверяется, что он на таком сайте, он начинает его спамить.
Но как боты вообще находят сайты в первую очередь? Я не думаю, что они просто перечисляют все возможные http-адреса? http://aaaa.com, http://aaaa.org, http://aaab.com, …, … — это не сработает, правда?
Существуют ли какие-то списки, которые перечисляют все общедоступные сайты?
Ответ или решение
Боты, которые занимаются спамом на форумах, блогах и других подобных веб-сайтах, используют несколько методов для поиска целевых ресурсов. Давайте разберем эти методы более подробно.
### 1. Использование поисковых систем
Наиболее распространенный способ, с помощью которого боты ищут «спамимые» сайты, заключается в использовании поисковых систем. Боты могут отправлять поисковые запросы с ключевыми словами, которые часто встречаются на целевых платформах, например, «форум», «комментарии», «блог», «обсуждание» и т.д. Поисковые системы, такие как Google или Bing, индексируют огромное количество страниц, и боты могут извлекать результаты из этих индексов.
### 2. Списки общедоступных сайтов
Существует множество списков, которые содержат ссылки на общедоступные сайты, такие как каталоги веб-сайтов и базы данных. Некоторые из таких списков могут быть сгенерированы автоматически или вручную, и они включают ссылки на форумы, блоги и другие платформы, которые предоставляют возможность размещения комментариев. Боты могут использовать такие списки для поиска новых мест для спама.
### 3. Сканирование доменных имен
Хотя боты не могут просто перечислять все возможные адреса HTTP, они могут использовать подсетевые диапазоны и инструменты, которые могут сканировать активные IP-адреса. Например, с помощью инструментов, таких как Nmap, можно сканировать диапазоны IP-адресов на наличие открытых веб-серверов и приложений, работающих под определёнными версиями ПО — такими как WordPress, phpBB и др.
### 4. Анализ публичных данных и веб-архивов
Боты также могут анализировать публичные данные из архивов, таких как Wayback Machine, для нахождения ранее существовавших сайтов. Обнаружив сайты, которые ранее были активны и предоставляли возможность оставлять комментарии или посты, боты могут заново попробовать к ним обратиться.
### 5. Участие в сообществах и форумах
Некоторые боты могут даже следить за постами и ссылками в социальных сетях и онлайн-сообществах, где пользователи делятся ссылками на различные форумы и блоги. Такие панели и модули могут легко находить обсуждаемые платформы и пробовать взаимодействовать с ними.
### 6. Автоматизированные системы
Современные боты нередко являются частью более сложных автоматизированных систем, которые могут в режиме реального времени отслеживать популярные анонсы, новости и обновления на форумах. Используя алгоритмы и машинное обучение, эти системы могут предсказывать, где возможно размещение спама будет успешным.
### Заключение
Таким образом, боты могут использовать различные стратегии и инструменты для поиска информационных платформ, привлекательных для спама. Используя комбинацию методов, начиная от поисковых систем и заканчивая более сложными алгоритмами анализа данных, они находят новые адреса и возможности для взаимодействия. Понимание этих методов важно не только для создания эффективных антиспам-мер, но и для защиты веб-ресурсов от потенциальной угрозы.