Как предотвратить индексирование PDF-файла поисковыми системами?

Вопрос или проблема

У меня есть ссылка на PDF-документ на публичной веб-странице. Как мне предотвратить индексацию этой ссылки и PDF-документа поисковыми системами?

Единственная идея, которая мне пришла в голову, это использовать CAPTCHA. Однако мне интересно, существуют ли какие-либо магические слова, которые сообщают поисковой системе не индексировать ссылку и PDF-документ? Опции с использованием PHP или JavaScript также подходят.

Чтобы было понятно. Я не хочу шифровать PDF и защищать его паролем. Я просто хочу сделать его невидимым для поисковых систем, но не для пользователей.

Чтобы предотвратить включение вашего PDF-файла (или любого другого не HTML файла) в результаты поиска, единственный способ – использовать HTTP заголовок ответа X-Robots-Tag, например:

X-Robots-Tag: noindex

Это можно сделать, добавив следующий фрагмент в корневой файл .htaccess или httpd.conf вашего сайта:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Обратите внимание, что для того, чтобы вышеуказанное работало, вы должны иметь возможность изменять HTTP-заголовки файла. Таким образом, возможно, вы не сможете сделать это, например, на GitHub Pages.

Также обратите внимание, что robots.txt не предотвращает включение вашей страницы в результаты поиска.

Что он делает, так это останавливает бота от обхода вашей страницы, но если третья сторона ссылается на ваш PDF-файл с своего сайта, ваша страница все равно будет включена в список.

Если вы остановите бота от обхода вашей страницы, используя robots.txt, у него не будет шанса увидеть метку ответа X-Robots-Tag: noindex. Поэтому никогда, никогда не запрещайте страницу в robots.txt, если вы используете заголовок X-Robots-Tag. Дополнительную информацию можно найти на Google Developers: Robots Meta Tag.

Существует множество способов сделать это (совмещение их, очевидно, является надежным способом достижения цели):

1) Используйте robots.txt для блокировки файлов от поисковых систем:

User-agent: *
Disallow: /pdfs/ # Блокировать директорию /pdfs/.
Disallow: *.pdf  # Блокировать PDF-файлы. Нестандартно, но работает для основных поисковых систем.

2) Используйте rel="nofollow" на ссылках на эти PDF-файлы

<a href="https://webmasters.stackexchange.com/questions/14520/something.pdf" rel="nofollow">Скачать PDF</a>

3) Используйте заголовок x-robots-tag: noindex HTTP для предотвращения индексации ихCrawlerами. Поместите этот код в ваш .htaccess файл:

<FilesMatch "\.pdf$">
  header set x-robots-tag: noindex
</FilesMatch>

Если ваши экземпляры разработки на nginx показываются в результатах поиска Google, есть быстрый и простой способ предотвратить обход поисковыми системами вашего сайта. Добавьте следующую строку в блок location вашего конфигурационного файла виртуального хоста для блока, который вы хотите защитить от обхода.

add_header  X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

Вы можете использовать файл robots.txt. Вы можете прочитать больше здесь.

Не уверен, принесет ли это кому-то пользу, но мы недавно столкнулись с проблемой, что наш локальный GSA не хочет индексировать PDF-файл.

Служба поддержки Google работала над этой проблемой, и их ответ заключается в том, что это связано с тем, что у этого PDF-документа установлено настраиваемое свойство (Файл -> Свойства документа -> Пользовательское (вкладка))

name: robots
value: noindex

что мешало ему правильно индексироваться GSA.

Если у вас есть доступ к документу и вы можете изменить его свойства, это может сработать … по крайней мере для GSA.

Я пытаюсь заблокировать документ Word на своем сайте cryptonews24.in, можем ли мы попробовать тот же метод или есть другой способ это сделать? Пожалуйста, подскажите, спасибо заранее.

Ответ или решение

Для предотвращения индексации PDF-файла поисковыми системами, который доступен по ссылке на публичной веб-странице, существует несколько методов. Рассмотрим их подробно.

Метод 1: Использование заголовка X-Robots-Tag

Наиболее эффективный способ блокировки индексации PDF-документов заключается в использовании заголовка HTTP X-Robots-Tag. Этот заголовок сообщает поисковым системам, что данный файл не должен индексироваться. Чтобы применить этот метод, необходимо добавить следующий код в файл конфигурации вашего сервера, например, в файл .htaccess или httpd.conf:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Этот код указывает серверам, обрабатывающим запросы, добавлять заголовок X-Robots-Tag: noindex, nofollow для всех PDF-файлов. В результате файлы не будут индексироваться поисковыми системами.

Метод 2: Использование файла robots.txt

Хотя robots.txt не гарантирует полное предотвращение индексации, он может препятствовать сканированию определенных файлов и каталогов. Добавьте следующую инструкцию в ваш файл robots.txt:

User-agent: *
Disallow: /pdfs/  # Блокировка папки с PDF
Disallow: *.pdf    # Блокировка всех PDF файлов

Имейте в виду, что если кто-то ссылался на ваш PDF с другого сайта, он все равно может появиться в результатах поиска, даже если сканирование блокировано.

Метод 3: Использование атрибута rel="nofollow"

При добавлении ссылок на PDF-файлы на веб-страницах можно использовать атрибут rel="nofollow":

<a href="https://example.com/document.pdf" rel="nofollow">Скачать PDF</a>

Это указывает поисковым системам не следовать по данной ссылке и не индексировать целевой файл. Однако это не полностью исключает возможность индексации, если файл был ранее проиндексирован.

Метод 4: Изменение свойств PDF-документа

Если у вас есть доступ к редактированию самого PDF-документа, вы можете установить в его свойствах значение noindex. Это может помочь в определенных случаях:

  1. Откройте PDF-документ в редакторе.
  2. Перейдите в свойства документа.
  3. Добавьте на вкладке «Настройки» в разделе «Пользовательские свойства»:
    • Имя: robots
    • Значение: noindex

Метод 5: Настройка серверного ПО (Nginx)

Если ваш сервер работает на Nginx, добавьте следующую строку в блок конфигурации вашего виртуального хоста:

add_header X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

Это обеспечит отправку заголовка X-Robots-Tag для всех файлов, расположенных на этом сервере.

Заключение

Чтобы максимально эффективно предотвратить индексацию PDF-файла, рекомендуется комбинировать несколько из вышеперечисленных методов. Разнообразные решения, такие как использование заголовков HTTP, файл robots.txt и атрибуты ссылок, создадут многоуровневую защиту. Помните, что ваше PDF-документ всегда может быть доступен пользователям, при этом оставаясь невидимым для поисковых систем, если правильно настроить указанные методы.

Оцените материал
Добавить комментарий

Капча загружается...