Robots.txt для WordPress

FORTRESS-DESIGN

15 лет назад

Содержание

Назначение файла robots.txt
Как создать robots.txt
Директива User-agent
Пример файла robots.txt для WordPress
Вот какие роботы посещают мой блог
Дополнительная информация

Все поисковые роботы, прежде чем сканировать сайт, в первую очередь определяют наличие файла robots.txt.

Robots.txt как правило индивидуален как и все сайты в интернете. Поэтому, чтобы правильно составить robots.txt для WordPress, сначало надо четко представлять его назначение и вникнуть в правила написания инструкций. Простое копирование чужого файла может вообще не подойти для вашего сайта и даже препятствовать его индексации. Продвижение неизбежно только в случае вдумчивого подхода и правильном файле robots.txt.

Назначение файла robots.txt

Robots.txt — текстовый файл, который предназначен для роботов поисковых систем. Файл находится в корне сайта (путь относительно доменного имени /robots.txt) и содержит инструкции при помощи которых можно:

запретить индексацию некоторых разделов, отдельных файлов, страниц или сайта целиком
указать главное зеркало сайта (основной домен).

Инструкции могут быть как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Как создать robots.txt

Robots.txt можно создать в обычном Блокноте. Заполните его необходимыми инструкциями и загрузите в корневой каталог вашего сайта. Можете проверить правильность обработки инструкций файла robots.txt, с помощью анализатора файла robots.txt.

Директива User-agent

Робот Яндекса поддерживает стандарт описания www.robotstxt.org/wc/norobots.html с расширенными возможностями.

Перед закачкой определенного пула страниц, робот Яндекса закачивает robots.txt сайта. Если файл не обнаружен или на запрос робота возвращается HTTP-код отличный от 200, считается, что доступ роботу не ограничен.

В самом robots.txt проверяется наличие записей, начинающихся с User-agent:, в них ищутся подстроки Yandex, либо * (регистр значения не имеет), причем, если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если записи User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Статья по теме: Индекс Google для мобильных устройств

Пример файла robots.txt для WordPress

User-agent: *
Allow: /wp-content/uploads
Disallow: /download
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /topic
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: /attachment
Disallow: */comments
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: /feed
Disallow: /?feed=
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Host: www.fortress-design.com
User-agent: MediaPartners-Google
Allow: /
Sitemap: //www.fortress-design.com/sitemap.xml

User-agent: – указание робота (бота), для которого предназначены нижеуказанные директивы

Disallow: – запрет доступа робота к некоторым частям сайта или сайту целиком

Sitemap: – указание пути к карте сайта sitemaps.xml

Host: – указывается адрес главного зеркала (директиву Host понимает только робот Яндекса)

В 30-й строке дается разрешение роботу Mediapartners-Google (AdSense) анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Обратите внимание, что робот AdSense никак не связан с поисковым роботом Google и его работа не влияет на рейтинг вашего сайта в поиске Google.

Вот какие роботы посещают мой блог

Yandex bot

Googlebot

WordPress

Sogou Spider

Google AdSense

Unknown robot (identified by 'crawl')

Unknown robot (identified by 'bot*')

Feedburner

Yahoo Slurp

Feedfetcher-Google

DoCoMo

The World Wide Web Worm

Unknown robot (identified by empty user agent string)

Java (Often spam bot)

MagpieRSS

Unknown robot (identified by hit on 'robots.txt')

BlogPulse ISSpider intelliseek.com

NewsGator Online

The web archive (IA Archiver)

Nutch

MJ12bot

Alexa (IA Archiver)

Speedy Spider

Unknown robot (identified by '*bot')

Jakarta commons-httpclient

Mail.ru bot

BaiDuSpider

W3C Validator

MSNBot

NG 1.x (Exalead)

StackRambler

MSNBot-media

Voyager

GigaBot

Unknown robot (identified by 'robot')

Perl tool

Powermarks

FaceBook bot

SurveyBot

larbin

Netcraft

Aport

Дополнительная информация

Блокировка и удаление страниц с помощью файла robots.txt
Блокирование содержания вашего сайта от робота Googlebot
Какие правила robots.txt поддерживает Яндекс?
The Web Robots Pages — оригинальный сайт о robots.txt, автор Martijn Koster
Как работать с файлом robots.txt, частые ошибки и вопросы. Роботы Рунета — это переводы www.robotstxt.org