Дублированный контент. Блокирование страниц с параметром ?replytocom

Дублированный контент в Вордпресс. Стоит ли беспокоиться?

Дублированный контент. Хорошо это или плохо? Может это вообще не важно? В нете можно найти много разных мнений по этому поводу. Я считаю, что дублированный контент — это большая опасность для блога.

В чем состоит опасность повторяющегося контента?

  1. Плохой (медленной) индексации. Может новые посты еще более-менее быстро индексируются, то старые, после обновления контента, будут долго ждать своей очереди.
  2. Выпадения страниц из индекса поисковой системы.
dublirovannyj-kontent
Изображение: Gonzalo Aragon © Shutterstock, Inc.

Если робот Googlebot обнаружил чрезвычайно большое количество ссылок на вашем сайте. Это может свидетельствовать о проблеме, связанной со структурой URL-адресов сайта. Возможно, робот Googlebot без необходимости сканирует большое количество различных URL, указывающих на идентичное или похожее содержание, либо сканирует разделы сайта, не требующие сканирования. В результате робот Googlebot может потреблять гораздо больше ресурсов канала передачи данных, чем необходимо. Кроме того, есть вероятность, что он не сможет полностью просканировать все содержание сайта.

Сегодня обнаружил резкий взрыв «новых» страниц, проиндексированных Яндексом.

G-idx: 494
Y-idx: 1 030

О, это плохо. Такой перепад сигнализирует о дисбалансе индексации. По сравнению с Гуглом, в Яндексе страниц больше, чем в два раза! Пройдя по ссылке, я отсортировал результаты поиска Яндекса по дате. И обнаружил 4 ссылки на одну и ту же страницу, на которой было добавлено 4 комментария.

Страницы с параметром replytocom в поисковой выдаче

Параметр ?replytocom

Параметр ?replytocom используется в блогах, которые позволяют отвечать на комментарии, в данном случае Вордпресс. Когда бы вы кликните на ответ в комментарии, вы увидите ссылку, которая будет иметь такой вид:

//www.fortress-design.com/about/?replytocom=11568

Очевидно, что эта ссылка не должна находиться в поисковом индексе. Это та же страница как

//www.fortress-design.com/about/

только содержит комментарий и параметр ?replytocom с числовым идентификатором.

Статья по теме:  Google отменил директиву rel=next и rel=prev для страниц пагинации

То есть при появлении каждого комментария на моем блоге, появлялась новая страница отличающаяся от другой только наличием этого отзыва. Подумать только что будет с блогом, если во время не принять меры! Количество страниц возрастет ровно на столько, сколько комментариев будет к каждому посту! И это в то время, когда работают фильтры Яндекса АГС и когда объявлена война сайтам, которые засоряют индекс поисковых систем.

Не откладывая проблему в долгий ящик, я принялся исследовать этот вопрос, чтобы выяснить синтаксис для формирования правила в robots.txt.

Решение проблемы дублирования контента для Вордпресс

Файл robots.txt

Как избавиться от страниц, дублирующих контент основных страниц? Конечно же, с помощью файла robots.txt. Я раньше писал каким должен быть файл robots.txt для WordPress. Но тогда учел не все нюансы.

Редактируем файл robots.txt, добавляя правило для запрета индексирования страниц, URL которых содержит параметр ?replytocom.

Disallow: *?replytocom

Обновив файл, рекомендую сразу же проверить его с помощью
анализа robots.txt (//webmaster.yandex.ua/robots.xml).

Анализ robots.txt

И тут же получить результаты проверки:

параметром ?replytocom

Некоторые, чтобы ускорить процесс удаления страниц с дублированным контентом, используют специальную форму удаления URL (//webmaster.yandex.ua/delurl.xml). Для удаления необходимо, чтобы индексирование страницы было запрещено в файле robots.txt.

Я руками удалил только 4 страницы.

Плагин для WordPress

Для тех, кто не хочет возиться с редактирования файла robots.txt (или не знает как), есть еще один вариант. Можно просто установить плагин, который я обнаружил, для  перенаправления ботов на правильный URL. Он называется Replytcom Redirector (//wordpress.org/extend/plugins/replytocom-redirector/installation/).

Просто скачиваете, устанавливаете и активируете в меню плагинов WordPress. Ничего настраивать не нужно.

Гугл-инструменты для веб-мастеров

Если на вашем сайте используются параметры URL, которые не нужны для навигации, укажите в панели управления Инструментов для веб-мастеров, что эти параметры следует игнорировать, так как это позволит сократить количество повторяющегося содержания в индексе Google и упростит сканирование сайта.

Статья по теме:  Ошибки дизайна, влияющие на SEO

Кстати, этот параметр replytocom, Гугл добавил сам. Респект ему!

Параметр replytocom следует игнорировать

В заключение

Я еще раз убедился в том, что за блогом надо следить и периодически (один или два раза в месяц) проводить SEO-аудит. Таким образом, вы можете своевременно выявить небольшие проблемы, которые могут обернуться серьезной проблемой в будущем.

Страницы, проиндексированные Яндексом с с параметром ?replytocomP.S. Пока я писал этот пост, Яндекс уже принял к сведению мои указания. В индексе стало на 4 страницы меньше, как раз на столько, сколько я удалил собственноручно. Остальное оставил роботу :)

P.P.S. 4 мая индексация Яндексом была близка к истинному значению. Но положительный результат от правильного файла robots.txt очевиден: из поисковой базы Яндекса удалено 1026-478 = 548 дублей. Но Гугл где-то нашел 154 страницы. С этим надо разбираться.

В действительности, карта сайта насчитывает 400 страниц вместе с главной. Она у меня создается автоматически специальным плагином для Вордпресса.


Понравилась статья? Поделиться с друзьями:
Комментарии: 28
  1. Kraser

    Спасибо! По делу, а я искал в чем причина.

    1. FORTRESS-DESIGN (автор)

      Ой-ой! Я кликнул по вашему нику и перешел на сайт. Блог явно находится под фильтром Яндекса — в индексе только одна страница. В то время как Гугл проиндексировал 585 страниц. Срочно надо спасать блог!

  2. Светлана

    Здравствуйте! Мой сайт был прекрасно проиндексирован, но потом Яндекс резко выбросил его из поиска. Добавила в роботс.тхт строчку, посмотрим на результат. Хотя на мой взгляд, видимых причин для таких строгих санкций нет. А что значит эта строчка: clean-param:utm_source? Обязательна ли она? Спасибо.

  3. FORTRESS-DESIGN (автор)

    Добрый день.

    Да, ваш сайт под фильтром. В индексе одна страница. Контент уникальный?

    utm_source — с таким параметром добавляются в УРЛ ссылки из Твиттера на запись в блоге.

  4. Светлана

    Я использую видео с Ютуба, а текст к нему, конечно, уникальный, мой. Дело в том, что под таким фильтром оказались 4 моих блога, и я не могу понять причины. Если бы знала, что нужно исправить, то исправила бы. Но Платон Щукин присылает отписки, типа: работайте и будет вам «щасье». На данном блоге я кроме того, что отредактировала роботс, еще закрыла партнерские ссылки в сайдбаре. Вот еще счетчики бы закрыть, но на их сайтах пишут, что нельзя ничего менять в коде счетчика, так что не решаюсь. Что еще можно сделать, ума не приложу. Если что подскажете, буду очень благодарна. Спасибо.

    1. FORTRESS-DESIGN (автор)

      Счетчики конечно не могли стать причиной санкций. А закрыть их от индексации, не меняя кода, очень просто — нужно заключить в тег noindex. Проверте текст на уникальность.

      И еще может причиной было изобилие рекламы? Сейчас реально, на вашем сайте рекламы больше чем контента.

  5. Светлана

    Спасибо. Попробую поработать с рекламой. И текст проверю — может скопипастили? Хотя, я ведь здесь пишу совсем немного, только о своих чувствах и ощущениях от песен, которые выкладываю.

    1. FORTRESS-DESIGN (автор)

      Я проверил одну страницу Адвегой — уникальность была 100%. У меня в блоге перечислены сервисы для проверки уникальности, попробуйте Миратулз и Текст.ру.

  6. Светлана

    Спасибо, на Миратулз проверила — тоже 100%, так что дело не в этом. Будем искать. Еще раз спасибо.

    1. FORTRESS-DESIGN (автор)

      Да, значит не за контент. Попробуйте сократить количество рекламы и спросить у Платона в чем проблема?

  7. Светлана

    В том-то и дело, что Платон Щукин все время отвечает одно и тоже. Такое впечатление, что последнее время там автоответчик. Что бы ни спросил — один стандартный ответ: почитайте правила или что-то в этом роде.

    1. FORTRESS-DESIGN (автор)

      Все рекомендуют методично с определенной периодичностью ему писать. Должны ответить. Ну и правила тоже надо прочестсь. Может что-то всплывет.

  8. Orcinus Orca

    кстати, я одно время напарывался на подобные финты. Бывает, что для обмана кэша браузера добавляется параметр в ссылку со случайным числом. Вот так вот и начинаются проблемы у поисковой системы, которые выливаются в проблемы у сайтовладельцев.

    1. FORTRESS-DESIGN (автор)

      Параметр добавляется чтобы было больше УРЛ с ответом сервера 200? Для искусственного наращивания страниц?

  9. Тимур

    Спасибо. Вроде все прописано в файле robots.txt, а с индексацией яндекса проблемы. Блогу полгода, а в поиске всего 3 страницы, хотя загружено 190 с лишним. Попробую запретить ?replytocom.
    Гугл индексирует отлично.

    1. FORTRESS-DESIGN (автор)

      А реально сколько статей написано?

    2. FORTRESS-DESIGN (автор)

      Похоже у вас проблемы с уникальностью контента.

  10. Сергей

    Здравствуйте!
    Та же проблема — Яндекс видел в 2 раза больше Гугла, потом сбросил до 4 страниц, потом до нуля.
    Долгая переписка, сайт почистил (убрал всю рекламу, убрал несколько платных статей с главной, убрал все виджеты — с повтором статей), почистил код (убрал пробелы), убавил количество меток. Контент весь уникальный (было несколько небольших цитат — убрал)
    Недавно ответил от Яндекса «не робот» — страницы появились (пока 2), прошло недели две после моей чистки — может быть еще рано видеть результат..?
    Не пойдет дело — хочу заменить шаблон.
    Как Вы считаете — поставить плагин Replytcom Redirector сейчас — есть смысл?

    1. FORTRESS-DESIGN (автор)

      Да, печально, всё это. Сайт зафильтрован. Если причиной санкций стал дублированный контент, то достаточно в robots.txt, прописать строку

      Disallow: *?replytocom

      и дождаться переиндексации. Зачем вам ставить плагин?

      Вместе с тем не переставать публиковать новые материалы и если есть бюджет, то закупать ссылки на них.

      1. Сергей

        Спасибо! Попробую.
        Скажите а прописывать в роботе нужно два раза? — не освоил я еще его до конца…
        здесь — User-agent: *
        и здесь — User-agent: Yandex

        1. FORTRESS-DESIGN (автор)

          Звёздочка означает для всех поисковиков, а Yandex — только для Яндекса.

          То есть одну и ту же инструкцию дублировать не стоит.

          Обозначать определённый поисковик целесообразно использовать, если нужна какая-то отдельная конструкция именно для него.

          1. Сергей

            Спасибо за подсказку, уже прописал в роботе — подождем индексации.

            1. FORTRESS-DESIGN (автор)

              Пожалуйста.

              1. Сергей

                Здравствуйте!
                Сменил домен и хостинг, прошло месяца 3-4 и сайт ожил. Сейчас посещаемость до 2000 в сутки.
                Disallow: *?replytocom — поставил сразу после Вашего совета и еще отключил «древовидные» комментарии — они давали — replytocom.
                Мои предыдущие комментарии у Вас теперь с битой ссылкой — если можно — замените на них адрес сайта на новый.

                1. FORTRESS-DESIGN (автор)

                  2000 в сутки — неплохой трафик. Поздравляю.

  11. Дмитрий

    Если запрещать роботам просматривать теги, категории, архивы… При этом ссылки на них везде по сайту, в том числе и на не запрещённых страницах. Не будит ли PR с основных страниц уходить в некуда?
    Считайте ссылка есть, а просматривать её роботу нельзя.

    1. FORTRESS-DESIGN (автор)

      Не уверен на 100%. Но ссылка в ноуфоллоу вес не передаёт, кроме ссылок из Твиттера.

      А что есть альтернатива?

  12. Андрей

    Доброго дня, у меня блог вордпрессе, но ?replytocom в ссылках на коменты я не наблюдаю, там другое слово: #comment.

    Пробывал в robots.txt прописать его, так: Disallow: *#comment, но в Яндекс Вебмастере ничего непоказывает.

    Дабавив вручную ссылки в Яндекс, выдало результат что урл не принадлежит моему домену :)

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: