Содержание
Robots.txt как правило индивидуален как и все сайты в интернете. Поэтому, чтобы правильно составить robots.txt для WordPress, сначало надо четко представлять его назначение и вникнуть в правила написания инструкций. Простое копирование чужого файла может вообще не подойти для вашего сайта и даже препятствовать его индексации. Продвижение неизбежно только в случае вдумчивого подхода и правильном файле robots.txt.
Назначение файла robots.txt
Robots.txt — текстовый файл, который предназначен для роботов поисковых систем. Файл находится в корне сайта (путь относительно доменного имени /robots.txt
) и содержит инструкции при помощи которых можно:
- запретить индексацию некоторых разделов, отдельных файлов, страниц или сайта целиком
- указать главное зеркало сайта (основной домен).
Инструкции могут быть как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Как создать robots.txt
Robots.txt можно создать в обычном Блокноте. Заполните его необходимыми инструкциями и загрузите в корневой каталог вашего сайта. Можете проверить правильность обработки инструкций файла robots.txt, с помощью анализатора файла robots.txt.
Директива User-agent
Робот Яндекса поддерживает стандарт описания www.robotstxt.org/wc/norobots.html
с расширенными возможностями.
Перед закачкой определенного пула страниц, робот Яндекса закачивает robots.txt сайта. Если файл не обнаружен или на запрос робота возвращается HTTP-код отличный от 200
, считается, что доступ роботу не ограничен.
В самом robots.txt проверяется наличие записей, начинающихся с User-agent:
, в них ищутся подстроки Yandex
, либо *
(регистр значения не имеет), причем, если обнаружена строка User-agent: Yandex
, директивы для User-agent: *
не учитываются. Если записи User-agent: Yandex
и User-agent: *
отсутствуют, считается, что доступ роботу не ограничен.
Пример файла robots.txt для WordPress
User-agent: *
Allow: /wp-content/uploads
Disallow: /download
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /topic
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: /attachment
Disallow: */comments
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: /feed
Disallow: /?feed=
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Host: www.fortress-design.com
User-agent: MediaPartners-Google
Allow: /
Sitemap: //www.fortress-design.com/sitemap.xml
User-agent:
– указание робота (бота), для которого предназначены нижеуказанные директивы
Disallow:
– запрет доступа робота к некоторым частям сайта или сайту целиком
Sitemap:
– указание пути к карте сайта sitemaps.xml
Host:
– указывается адрес главного зеркала (директиву Host
понимает только робот Яндекса)
В 30-й
строке дается разрешение роботу Mediapartners-Google (AdSense) анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Обратите внимание, что робот AdSense никак не связан с поисковым роботом Google и его работа не влияет на рейтинг вашего сайта в поиске Google.
Вот какие роботы посещают мой блог
Yandex bot
Googlebot
WordPress
Sogou Spider
Google AdSense
Unknown robot (identified by 'crawl')
Unknown robot (identified by 'bot*')
Feedburner
Yahoo Slurp
Feedfetcher-Google
DoCoMo
The World Wide Web Worm
Unknown robot (identified by empty user agent string)
Java (Often spam bot)
MagpieRSS
Unknown robot (identified by hit on 'robots.txt')
BlogPulse ISSpider intelliseek.com
NewsGator Online
The web archive (IA Archiver)
Nutch
MJ12bot
Alexa (IA Archiver)
Speedy Spider
Unknown robot (identified by '*bot')
Jakarta commons-httpclient
Mail.ru bot
BaiDuSpider
W3C Validator
MSNBot
NG 1.x (Exalead)
StackRambler
MSNBot-media
Voyager
GigaBot
Unknown robot (identified by 'robot')
Perl tool
Powermarks
FaceBook bot
SurveyBot
larbin
Netcraft
Aport
Дополнительная информация
- Блокировка и удаление страниц с помощью файла robots.txt
- Блокирование содержания вашего сайта от робота Googlebot
- Какие правила robots.txt поддерживает Яндекс?
- The Web Robots Pages — оригинальный сайт о robots.txt, автор Martijn Koster
- Как работать с файлом robots.txt, частые ошибки и вопросы. Роботы Рунета — это переводы www.robotstxt.org