Как закрыть сайт от индексации

FORTRESS-DESIGN

13 лет назад

Содержание

Как запретить индексацию сайта
А теперь с разъяснениями
Запрещающая директива
Когда доступ к сайту неограничен
Правильный robots.txt, который блокирует доступ ко всему сайту
Будьте внимательны!

Как запретить индексацию сайта

Чтобы закрыть сайт от всех поисковых роботов, достаточно создать в корне сайта текстовый файл robots.txt и прописать в нём две строки:

User-agent: *
Disallow: /

Если необходимо закрыть сайт только от поискового робота Яндекса, тогда нужно указать его имя:

User-agent: Yandex
Disallow: /

Аналогичным образом ставится блокировка для поисковых робота Google:

User-agent: Googlebot
Disallow: /

А чтобы закрыть от индексации для всех поисковиков, кроме одного (например, Яндекс):

User-agent: *
Disallow: /
User agent: Yandex
Allow: /

А теперь с разъяснениями

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Запрещающая директива

Если вы хотите, чтобы поисковики не индексировали сайт, который находится на этапе разработки, то нужно использовать соответствующую директиву в robots.txt.

<code>Disallow: / # блокирует доступ ко всему сайту</code>

Но это ещё не всё!

Важно! Сама по себе эта директива 'Disallow: /' не способна запретит сканирование вашего сайта. Нужно грамотно оформить весь файл robots.txt.

В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*'. В этих инструкциях регистр значения не имеет.

Если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются (потому что есть персональная директива для Яндекса).

Когда доступ к сайту неограничен

Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Также действует правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.

Статья по теме: Google отменил директиву rel=next и rel=prev для страниц пагинации

Правильный robots.txt, который блокирует доступ ко всему сайту

Важно! Чтобы запретить доступ робота ко всему сайту, используйте две директивы.

Вот так выглядит правильный robots.txt, запрещающий доступ к сайту для всех роботов сразу:

<code>User-agent: * # директива для всех роботов</code>
<code>Disallow: / # блокирует доступ ко всему сайту</code>

Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

Теперь все правильно — доступ к сайту запрещен

Источник: Яндекс.Вебмастер «Использование директив Disallow и Allow»

Кроме того, чтобы не показывать посетителям незавершенный проект, можно просто закрыть сайт паролем.

Будьте внимательны!

Только не забудьте открыть страницы сайта для индексации по окончании всех работ. Такое часто бывает. Даже у меня был один случай. Спустя год, мне стало интересно как поживает сайт который я сделал одному клиенту. Решил проверить сколько у них страниц в индексе и, о ужас, в индексе ничего. Я стал выяснять причину и обнаружил, что robots.txt стоит запрет на индексирование. Но клиент этого даже не заметил, так как он весьма скептически относился к продвижению. Ему нужен был сайт в качестве онлайн-каталога.

А вообще, случается такое, что вебмастера продвигают контент, который закрыт в Robots.txt. Обязательно проверьте наличие продвигаемых страниц в индексе ПС. Постранично это можно сделать в вебмастере Яндекса. А если используете системы автоматизации, например PromoPult, то массовую проверку SEO-параметров продвигаемых URL-ов проводите на втором шаге проекта «Страницы».

Дополнительные материалы: The Ultimate Guide to Hiding Webpages from Indexation