Как закрыть сайт от индексации

Опубликовано: 19.07.2012Рубрика: SEO

Содержание

Как запретить индексацию сайта
А теперь с разъяснениями
Запрещающая директива
Когда доступ к сайту неограничен
Правильный robots.txt, который блокирует доступ ко всему сайту
Будьте внимательны!

Как запретить индексацию сайта

Чтобы закрыть сайт от всех поисковых роботов, достаточно создать в корне сайта текстовый файл robots.txt и прописать в нём две строки:

User-agent: *
Disallow: /

Если необходимо закрыть сайт только от поискового робота Яндекса, тогда нужно указать его имя:

User-agent: Yandex
Disallow: /

Аналогичным образом ставится блокировка для поисковых робота Google:

User-agent: Googlebot
Disallow: /

А чтобы закрыть от индексации для всех поисковиков, кроме одного (например, Яндекс):

User-agent: *
Disallow: /
User agent: Yandex
Allow: /

А теперь с разъяснениями

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Запрещающая директива

Если вы хотите, чтобы поисковики не индексировали сайт, который находится на этапе разработки, то нужно использовать соответствующую директиву в robots.txt.

<code>Disallow: / # блокирует доступ ко всему сайту</code>

Но это ещё не всё!

Важно! Сама по себе эта директива 'Disallow: /' не способна запретит сканирование вашего сайта. Нужно грамотно оформить весь файл robots.txt.

В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*'. В этих инструкциях регистр значения не имеет.

Если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются (потому что есть персональная директива для Яндекса).

Когда доступ к сайту неограничен

Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Запрещающая инструкция есть, но доступ к сайту неограничен — Запрет есть, а доступ разрешен

Также действует правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.

Статья по теме: Что изменится, если убрать с сайта SEO-тексты

Правильный robots.txt, который блокирует доступ ко всему сайту

Важно! Чтобы запретить доступ робота ко всему сайту, используйте две директивы.

Вот так выглядит правильный robots.txt, запрещающий доступ к сайту для всех роботов сразу:

<code>User-agent: * # директива для всех роботов</code>
<code>Disallow: / # блокирует доступ ко всему сайту</code>

Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

Чтобы запретить индексирование всего сайта, используйте две директивы — Теперь все правильно — доступ к сайту запрещен

Источник: Яндекс.Вебмастер «Использование директив Disallow и Allow»

Кроме того, чтобы не показывать посетителям незавершенный проект, можно просто закрыть сайт паролем.

Будьте внимательны!

Только не забудьте открыть страницы сайта для индексации по окончании всех работ. Такое часто бывает. Даже у меня был один случай. Спустя год, мне стало интересно как поживает сайт который я сделал одному клиенту. Решил проверить сколько у них страниц в индексе и, о ужас, в индексе ничего. Я стал выяснять причину и обнаружил, что robots.txt стоит запрет на индексирование. Но клиент этого даже не заметил, так как он весьма скептически относился к продвижению. Ему нужен был сайт в качестве онлайн-каталога.

А вообще, случается такое, что вебмастера продвигают контент, который закрыт в Robots.txt. Обязательно проверьте наличие продвигаемых страниц в индексе ПС. Постранично это можно сделать в вебмастере Яндекса. А если используете системы автоматизации, например PromoPult, то массовую проверку SEO-параметров продвигаемых URL-ов проводите на втором шаге проекта «Страницы».

Дополнительные материалы: The Ultimate Guide to Hiding Webpages from Indexation

18 5 546

Комментарии: 18

алексей 23.12.2012 в 09:15
а как закрыть сайт только для яндекса?
Ответить
FORTRESS-DESIGN (автор) 23.12.2012 в 22:06
Чтобы закрыть сайт от ботов Яндекса, нужно написать всего две строки:
```
User-agent: Yandex
Disallow: /
```
Потом обязательно проверьте свой файл robots.txt специальным on-line анализатором.
Ответить
Gastro 10.11.2013 в 02:04
Подскажите, а как мне закрыть от индексации яшей и гуглом одну определенную страницу на сайте??
писать что-то вроде??
User-agent: *
Disallow: /адрес страницы (и нужно ли указывать слеш или нет?)
Ответить
1. FORTRESS-DESIGN (автор) 10.11.2013 в 21:31
  В файле robots.txt можно прописывать правила для Яндекса и точно такие написать, указав бот Гугла.
  Допустим у нас на сайте есть страница о пользовательском соглашении, которую мы не хотим индексировать и размещена она по адресу: site.ru/user-agreement/.
  Чтобы закрыть эту страницу от индексации в robots.txt нужно добавить строку
  вида:
  Disallow: /user-agreement/
  Ответить
  1. GastRo 13.11.2013 в 11:48
    т.е. если я всё понял правильно, то для закрытия от робота страницы, например вот этой МойСйт.ru/ssilki.html
    мне нужно прописать примерно вот так
    User-agent: Yandex
    Disallow: /ssilki.html/
    Правильно???
    Ответить
    1. FORTRESS-DESIGN (автор) 13.11.2013 в 12:58
      Да. Только зачем в конце слэш добавили?
      Ответить
GastRo 13.11.2013 в 21:04
понял без слеша в конце -))
спасибо!
Ответить
Сергей 21.01.2014 в 10:45
А что значит строка ? Disallow: /*p=
Ответить
1. алексей 19.03.2014 в 11:19
  Это закрытие от роботов страниц пейджинга у которых урл содержит p=
  делается в целях уменьшения количества дублей одинаковых страниц
  Ответить
  1. FORTRESS-DESIGN (автор) 19.03.2014 в 11:27
    Спасибо, Алексей.
    Ответить
EvGen12 31.01.2014 в 20:08
А как закрыть от индексации только главную страницу сайта, к примеру domain.com?
Ответить
1. FORTRESS-DESIGN (автор) 31.01.2014 в 20:39
  Оригинальный вопрос. Такое даже и в голову бы не пришло )) А зачем вам закрывать только главную? Просто интересно, какое практическое применение для этого можно найти?
  Ответить
EvGen12 06.02.2014 в 21:54
На собеседовании спросили:) Закрыть нужно только главную динамическую страницу, остальные должны быть проиндексированы. Как это сделать с помощью роботс.тхт?
Ответить
1. FORTRESS-DESIGN (автор) 09.02.2014 в 12:48
  Чтобы закрыть от индексации только главную страницу сайта, в robots.txt необходимо использовать правило Disallow: /$, оно запрещает к обходу только главную страницу вашего сайта.
  Рекомендую вам также воспользоваться инструментом проверки файла robots.txt: http://webmaster.yandex.ru/robots.xml . Непосредственно в инструменте вы можете корректировать указания и проверять, запрещены или разрешены необходимые вам страницы к индексированию.
  Ответить
EvGen12 10.02.2014 в 13:37
Спасибо большое!
Ответить
Arkadiy 02.05.2014 в 00:02
Благодарю за полезную инфу!
А для ботов Гугла — написать Google вместо Yandex?
Или достаточно поставить звездочку «*» и тогда это ВНИМАНИЕ для всех поисковых роботов?
Ответить
1. FORTRESS-DESIGN (автор) 02.05.2014 в 11:51
  Если напишете ‘User-agent: Google‘, то нижеследующие директивы будут относиться исключительно к Гуглу, если поставите звездочку — то ко всем остальным.
  Ответить
Аноним 20.05.2015 в 20:13
подскажи пожалуйста, возникла проблема заблокировался нужный файл для индексации и таких много…
/bitrix/image_uploader/images/vendor/canon, canon.pdf
что не так в файле и насколько он вообще грамотно составлен?
+ интересует как здесь закрыть полный доступ googlУ
User-agent: *
Allow: /catalog/
Disallow: /bitrix/
Allow: /bitrix/image_uploader/
Allow: /upload/
Disallow: /search/
Allow: /search/map.php
Disallow: /auth/
Disallow: /service-pages/
Disallow: /include/
Disallow: /cgi-bin/
Disallow: /personal/
Disallow: /auth.php
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*backurl=*
Disallow: /*back_url=*
Disallow: /*back_url_admin=*
Disallow: /*index.php?set_filter=*
Disallow: /*index.php?sort=*
Disallow: /*index.php?arrFilter*
Disallow: /*?PAGEN
Disallow: /*?count
Disallow: /*?action
Disallow: /access.log
Disallow: /*?set_filter=*
Disallow: /*?q=*
Ответить

Добавить комментарий