Как предотвратить индексирование PDF-файла поисковыми системами?

Question 1

У меня есть ссылка на PDF-документ на публичной веб-странице. Как мне предотвратить индексацию этой ссылки и PDF-документа поисковыми системами?

Единственная идея, которая мне пришла в голову, это использовать CAPTCHA. Однако мне интересно, существуют ли какие-либо магические слова, которые сообщают поисковой системе не индексировать ссылку и PDF-документ? Опции с использованием PHP или JavaScript также подходят.

Чтобы было понятно. Я не хочу шифровать PDF и защищать его паролем. Я просто хочу сделать его невидимым для поисковых систем, но не для пользователей.

Question 2

Чтобы предотвратить включение вашего PDF-файла (или любого другого не HTML файла) в результаты поиска, единственный способ – использовать HTTP заголовок ответа X-Robots-Tag, например:

X-Robots-Tag: noindex

Это можно сделать, добавив следующий фрагмент в корневой файл .htaccess или httpd.conf вашего сайта:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Обратите внимание, что для того, чтобы вышеуказанное работало, вы должны иметь возможность изменять HTTP-заголовки файла. Таким образом, возможно, вы не сможете сделать это, например, на GitHub Pages.

Также обратите внимание, что robots.txt не предотвращает включение вашей страницы в результаты поиска.

Что он делает, так это останавливает бота от обхода вашей страницы, но если третья сторона ссылается на ваш PDF-файл с своего сайта, ваша страница все равно будет включена в список.

Если вы остановите бота от обхода вашей страницы, используя robots.txt, у него не будет шанса увидеть метку ответа X-Robots-Tag: noindex. Поэтому никогда, никогда не запрещайте страницу в robots.txt, если вы используете заголовок X-Robots-Tag. Дополнительную информацию можно найти на Google Developers: Robots Meta Tag.

Question 3

Существует множество способов сделать это (совмещение их, очевидно, является надежным способом достижения цели):

1) Используйте robots.txt для блокировки файлов от поисковых систем:

User-agent: *
Disallow: /pdfs/ # Блокировать директорию /pdfs/.
Disallow: *.pdf  # Блокировать PDF-файлы. Нестандартно, но работает для основных поисковых систем.

2) Используйте rel="nofollow" на ссылках на эти PDF-файлы

<a href="https://webmasters.stackexchange.com/questions/14520/something.pdf" rel="nofollow">Скачать PDF</a>

3) Используйте заголовок x-robots-tag: noindex HTTP для предотвращения индексации ихCrawlerами. Поместите этот код в ваш .htaccess файл:

<FilesMatch "\.pdf$">
  header set x-robots-tag: noindex
</FilesMatch>

Question 4

Если ваши экземпляры разработки на nginx показываются в результатах поиска Google, есть быстрый и простой способ предотвратить обход поисковыми системами вашего сайта. Добавьте следующую строку в блок location вашего конфигурационного файла виртуального хоста для блока, который вы хотите защитить от обхода.

add_header  X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

Question 5

Вы можете использовать файл robots.txt. Вы можете прочитать больше здесь.

Question 6

Не уверен, принесет ли это кому-то пользу, но мы недавно столкнулись с проблемой, что наш локальный GSA не хочет индексировать PDF-файл.

Служба поддержки Google работала над этой проблемой, и их ответ заключается в том, что это связано с тем, что у этого PDF-документа установлено настраиваемое свойство (Файл -> Свойства документа -> Пользовательское (вкладка))

name: robots
value: noindex

что мешало ему правильно индексироваться GSA.

Если у вас есть доступ к документу и вы можете изменить его свойства, это может сработать … по крайней мере для GSA.

Question 7

Я пытаюсь заблокировать документ Word на своем сайте cryptonews24.in, можем ли мы попробовать тот же метод или есть другой способ это сделать? Пожалуйста, подскажите, спасибо заранее.

Как предотвратить индексирование PDF-файла поисковыми системами?

Вопрос или проблема

Ответ или решение

Метод 1: Использование заголовка X-Robots-Tag

Метод 2: Использование файла robots.txt

Метод 3: Использование атрибута rel="nofollow"

Метод 4: Изменение свойств PDF-документа

Метод 5: Настройка серверного ПО (Nginx)

Заключение