♛ FORTRESS-DESIGN

Дублированный контент. Блокирование страниц с параметром ?replytocom

Дублированный контент в Вордпресс. Стоит ли беспокоиться?

Дублированный контент. Хорошо это или плохо? Может это вообще не важно? В нете можно найти много разных мнений по этому поводу. Я считаю, что дублированный контент — это большая опасность для блога.

В чем состоит опасность повторяющегося контента?

  1. Плохой (медленной) индексации. Может новые посты еще более-менее быстро индексируются, то старые, после обновления контента, будут долго ждать своей очереди.
  2. Выпадения страниц из индекса поисковой системы.
Изображение: Gonzalo Aragon © Shutterstock, Inc.

Если робот Googlebot обнаружил чрезвычайно большое количество ссылок на вашем сайте. Это может свидетельствовать о проблеме, связанной со структурой URL-адресов сайта. Возможно, робот Googlebot без необходимости сканирует большое количество различных URL, указывающих на идентичное или похожее содержание, либо сканирует разделы сайта, не требующие сканирования. В результате робот Googlebot может потреблять гораздо больше ресурсов канала передачи данных, чем необходимо. Кроме того, есть вероятность, что он не сможет полностью просканировать все содержание сайта.

Сегодня обнаружил резкий взрыв «новых» страниц, проиндексированных Яндексом.

G-idx: 494
Y-idx: 1 030

О, это плохо. Такой перепад сигнализирует о дисбалансе индексации. По сравнению с Гуглом, в Яндексе страниц больше, чем в два раза! Пройдя по ссылке, я отсортировал результаты поиска Яндекса по дате. И обнаружил 4 ссылки на одну и ту же страницу, на которой было добавлено 4 комментария.

Параметр ?replytocom

Параметр ?replytocom используется в блогах, которые позволяют отвечать на комментарии, в данном случае Вордпресс. Когда бы вы кликните на ответ в комментарии, вы увидите ссылку, которая будет иметь такой вид:

//www.fortress-design.com/about/?replytocom=11568

Очевидно, что эта ссылка не должна находиться в поисковом индексе. Это та же страница как

//www.fortress-design.com/about/

только содержит комментарий и параметр ?replytocom с числовым идентификатором.

То есть при появлении каждого комментария на моем блоге, появлялась новая страница отличающаяся от другой только наличием этого отзыва. Подумать только что будет с блогом, если во время не принять меры! Количество страниц возрастет ровно на столько, сколько комментариев будет к каждому посту! И это в то время, когда работают фильтры Яндекса АГС и когда объявлена война сайтам, которые засоряют индекс поисковых систем.

Не откладывая проблему в долгий ящик, я принялся исследовать этот вопрос, чтобы выяснить синтаксис для формирования правила в robots.txt.

Решение проблемы дублирования контента для Вордпресс

Файл robots.txt

Как избавиться от страниц, дублирующих контент основных страниц? Конечно же, с помощью файла robots.txt. Я раньше писал каким должен быть файл robots.txt для WordPress. Но тогда учел не все нюансы.

Редактируем файл robots.txt, добавляя правило для запрета индексирования страниц, URL которых содержит параметр ?replytocom.

Disallow: *?replytocom

Обновив файл, рекомендую сразу же проверить его с помощью
анализа robots.txt (//webmaster.yandex.ua/robots.xml).

И тут же получить результаты проверки:

Некоторые, чтобы ускорить процесс удаления страниц с дублированным контентом, используют специальную форму удаления URL (//webmaster.yandex.ua/delurl.xml). Для удаления необходимо, чтобы индексирование страницы было запрещено в файле robots.txt.

Я руками удалил только 4 страницы.

Плагин для WordPress

Для тех, кто не хочет возиться с редактирования файла robots.txt (или не знает как), есть еще один вариант. Можно просто установить плагин, который я обнаружил, для  перенаправления ботов на правильный URL. Он называется Replytcom Redirector (//wordpress.org/extend/plugins/replytocom-redirector/installation/).

Просто скачиваете, устанавливаете и активируете в меню плагинов WordPress. Ничего настраивать не нужно.

Гугл-инструменты для веб-мастеров

Если на вашем сайте используются параметры URL, которые не нужны для навигации, укажите в панели управления Инструментов для веб-мастеров, что эти параметры следует игнорировать, так как это позволит сократить количество повторяющегося содержания в индексе Google и упростит сканирование сайта.

Кстати, этот параметр replytocom, Гугл добавил сам. Респект ему!

В заключение

Я еще раз убедился в том, что за блогом надо следить и периодически (один или два раза в месяц) проводить SEO-аудит. Таким образом, вы можете своевременно выявить небольшие проблемы, которые могут обернуться серьезной проблемой в будущем.

P.S. Пока я писал этот пост, Яндекс уже принял к сведению мои указания. В индексе стало на 4 страницы меньше, как раз на столько, сколько я удалил собственноручно. Остальное оставил роботу

P.P.S. 4 мая индексация Яндексом была близка к истинному значению. Но положительный результат от правильного файла robots.txt очевиден: из поисковой базы Яндекса удалено 1026-478 = 548 дублей. Но Гугл где-то нашел 154 страницы. С этим надо разбираться.

В действительности, карта сайта насчитывает 400 страниц вместе с главной. Она у меня создается автоматически специальным плагином для Вордпресса.