Главная / Создание и продвижение сайтов / SEO / Поиск и устранение дублей страниц на сайте WordPress

Поиск и устранение дублей страниц на сайте WordPress

Вот и пришло время марафона. Кстати, пока писал эту статью, на почту поступило приглашение поучаствовать в проводимом на сайте 9seo.ru марафоне по увеличению посещаемости сайта. Некоторое время я размышлял, что мне это может дать и как правильно поступить. В итоге решил, что со своим режимом дня и загруженностью на основной работе вряд ли смогу участвовать в интенсивной борьбе за призовые места. К тому же, основная моя цель – не обеспечение дохода стороннему ресурсу (участие в марафоне на 9seo стоит 999 рублей), а развитие собственных блогов на WordPress.

Поэтому буду набивать шишки и получать опыт продвижения в том ритме и с той скоростью, которую способен осилить. Возвращаюсь к собственному марафону, замечу, что для многих блогеров какая-то (возможно, подавляющая) часть шагов, которые я буду предпринимать и подробно описывать – этап давно пройденный. Так что, буду ориентироваться на то, что информация может оказаться полезной для новичков и профессиональных «чайников», пытающихся разобраться в теме «Развитие блога на WordPress». Итак, шаг первый:

Устранение дублей страниц.

Оптимизация индексации – важная часть работ по внутренней оптимизации ресурса. Для роботов поисковых систем страницы с частично или полностью одинаковым содержанием и различающимися адресами представляют дублированный контент. По какой бы причине – недосмотру или халатности вебмастера – ни появились дубли страниц, их необходимо выявлять и устранять.

Неуникальный дублированный контент, кроме того, что не приносит блогу на WordPress особой пользы, еще и способствует занижению основных страниц сайта в поисковой выдаче и опасен наложением фильтров от ПС. Другой негативный момент заключается в том, что при дублировании страниц дублируются и ссылки, расположенные на них, следовательно, поисковики видят уже не одну ссылку с вашего блога, а столько, сколько найдено было дублей страницы.

Главный инструмент для борьбы с дубликатами – файл robots.txt, позволяющий исключать из поиска все ненужные страницы. В репозитории WordPress при желании можно найти различные плагины для выполнения этой задачи. Но мы легких путей не ищем, будем избавляться от мусора в поиске классическими методами.

Откуда берутся дубли страниц

Дубли в выдаче – результат архитектуры движка WordPress, особенностей формирования и представления информации в этой CMS. В оправдание WordPress можно лишь сказать, что эта болезнь преследует и другие системы управления контентом с динамическим представлением. Дубли могут быть как полными – когда страницы отличаются лишь адресом, так и неполными – когда контент на страницах дублируется частично. Источниками дублированного контента в WordPress служат теги, категории, RSS-лента, трэкбэки, комментарии, печатные версии страниц, неудачные реализации шаблонов.

Как найти дубли страниц на сайте

Проверить свой сайт на дубли страниц можно по-разному. Самый простой способ увидеть свой блог глазами поисковой системы – воспользоваться инструментами вебмастера от Гугл или Яндекс. Вот что показывал Яндекс Вебмастер до проведения работ по удалению дублей страниц.

ubiraem-dubli-stranic-wordpress-01

Как видим, среди проиндексированного материала достаточно много мусора — при том, что основную часть дублей Яндекс отсеял самостоятельно.

Проверить дубли страниц онлайн в Google-поиске можно, вбив в строку поиска этой ПС запрос «site:mysite.ru – site:mysite.ru/&», подставив в него вместо mysite.ru адрес своего блога. Здесь, как на ладони, видно все неполные дубли и бесполезные страницы, которые мешают основным страницам блога ранжироваться выше.

ubiraem-dubli-stranic-wordpress-02

Еще один способ проверки на дубли страниц – небольшая десктопная программа Xenu. Вбив адрес своего блога в специальном поле, достаточно быстро можно его проанализировать. Отфильтровав полученные результаты по заголовкам, можно будет визуально выделить дубли страниц. Но этим способом не удастся обнаружить частичные дубликаты.

ubiraem-dubli-stranic-wordpress-03

Как избавиться от дублей страниц

Увидеть и осознать ситуацию – недостаточно, ее необходимо исправлять. Как убрать дубли страниц «легким движением руки»? Для этого существует простое и элегантное решение, о котором было сказано выше – файл robots.txt, позволяющий поставить запрет на индексацию всего того мусора, который вылезает в поиск.

Следует упомянуть, что robots.txt должен существовать в единственном экземпляре и размещаться в корне сайта – в папке на хостинге, в которой физически расположен ваш блог. Отсутствие файла robots.txt в корне блога на WordPress предполагает полное отсутствие ограничений на его индексацию. Создать этот файл можно в текстовом редакторе типа Notepad++, при этом необходимо соблюдать определенную структуру и синтаксис.

Настройка файла robots.txt для WordPress

В справке Яндекс Вебмастера собрана подробная информация о файле robots.txt. Дабы не повторять уже сказанное, отмечу кратко основные моменты.

Файл robots.txt предназначен исключительно для поисковых роботов, имеет текстовый формат и заполняется вебмастером на свой страх и риск директивами для этих роботов.

Основные директивы robots.txt:

User-agent – может содержать имя конкретного бота, для которого предназначены инструкции или * («звездочку»), если инструкции предназначены для всех. Поисковых роботов великое множество, у одного Яндекса их больше десятка, но в качестве значений директивы User-agent обычно указывают *, Yandex и Googlebot.

Allow разрешающая и Disallow запрещающая директивы, служащие для ограничения доступа поисковых роботов к контенту сайта. С их помощью можно ограничить доступ ко всему сайту, к отдельным его категориям или страницам. При конфликте между разрешающей и запрещающей директивой в пределах директивы User-agent приоритет имеет Allow.

Host – значением для этой директивы является имя главного зеркала сайта, например, доменное имя с www или без www. Эта директива добавляется непосредственно после директив Allow и Disallow. Некорректные директивы Host игнорируются роботами, причиной этого может стать элементарная ошибка – например, лишняя точка или пробел в имени сайта.

Sitemap – служит для указания пути к файлу, содержащему описание структуры сайта – к карте сайта. Поисковые роботы запоминают результаты обработки этой директивы и используют их при следующем сканировании.

Подробнее использование этих директив можно рассмотреть в приведенном ниже готовом файле robots.txt для сайта на WordPress.

Символ #, используемый в синтаксисе файла robots.txt, предназначен для написания комментариев для людей, информация после этого символа роботами не учитывается.

Мы запрещаем индексацию папок с темами и плагинами, запрещаем индексацию фида и кэша, запрещаем категории, теги, пагинацию. Но разрешаем индексацию папок с картинками. Во избежание недопонимания со стороны основных роботов Яндекса и Гугла, прописываем конкретные инструкции для каждого. Правильный файл robots.txt для WordPress в моем случае выглядит так:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /download
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/

User-agent:  Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /download
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag
Sitemap: http://vervekin.ru/sitemap.xml

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /download
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Host: vervekin.ru

User-agent: YandexImages
Allow: /wp-content/uploads/

Можно использовать его, заменив в нем все адреса адресами собственного блога. Другой простой вариант – позаимствовать готовый robots.txt у ресурса на WordPress, который высоко ранжируется поисковыми системами и которому вы доверяете – тоже с заменой данных на собственные. Увидеть robots.txt, если он имеется на сайте, легко. Для этого достаточно вбить в адресной строке браузера: mysite.ru/robots.txt (подставив вместо mysite.ru нужный адрес).

Файл .htaccess и дубли страниц

Убрать дубли можно и через файл .htaccess в корне сайта, прописав 301-й редирект с неуникальных «хвостов» на «чистые» адреса страниц. Об этом есть топик практически на каждом seo-форуме. Поэтому, чтобы не изобретать велосипед, возьмем готовый файл .htaccess для устранения дублей в WordPress. Выглядит он так:

# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule (.+)/feed /$1 [R=301,L]
RewriteRule (.+)/comment-page /$1 [R=301,L]
RewriteRule (.+)/trackback /$1 [R=301,L]
RewriteRule (.+)/comments /$1 [R=301,L]
RewriteRule (.+)/attachment /$1 [R=301,L]
RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
RewriteRule (.*) $1? [R=301,L]
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

# END WordPress

Дополнительные шаги для избавления от дублей страниц

В Инструментах Вебмастера Google выбираем раздел «Сканирование — Параметры URL«. Значение параметра replytocom следует в соответствии с показанными на рисунке ниже. Это даст указание Гуглу не индексировать частичные дубли страниц.

ubiraem-dubli-stranic-wordpress-04

ubiraem-dubli-stranic-wordpress-06

ubiraem-dubli-stranic-wordpress-05

Осталось применить изменения, сделанные в Google Webmaster Tools, закачать оба созданных файла (robots.txt  и .htaccess) в корень сайта и дожидаться поисковых роботов.

Расскажите об этой статье в соцсетях:

8 комментариев

  1. Олег Клышко

    Дубли это плохо как то много времени потратил на их удаление

  2. Александр Каратаев

    Проверил указанными способами на Яндексе и Гугле — дубли не обнаружены. Посмотрим, что дальше будет. Хотя все меры я принял ещё на старом домене, вроде на новом должно быть нормально…

    • Александр, у Вас к собственному блогу подход более рациональный и правильный изначально. Я же, зная о большинстве «фишек», ленюсь их внедрять в собственные проекты. Или не успеваю. Суть от этого не меняется — технической работы вагон. Так что даже пришлось себе придумать марафон )

  3. У меня было несколько попыток смены файла роботс. Если с Яндекс все более менее нормально (загружено 601, в поиске 164), то Гугл тот еще любитель «соплей». У меня в поиске было более 600 страниц, кончилось все тем, что разрешила Гуглу смотреть абсолютно все. Есть мнение, что Гугл все равно заглядывает за закрытые двери роботса и оставляет след. Количество дублей сократилось вдвое.
    Сейчас еще раз поинтересовалась ситуацией — Гугл видит порядка 300 страниц: каталоги, страницы и почему-то картинки из одной статьи. Почему именно из этой статьи (про Сигулду) — не знаю.
    Константин, есть идеи?

    • Похоже, и мне какое-то время понадобится для экспериментов.
      Заглядывают все роботы, но запрещенное для индексации не должно появляться в выдаче.
      На картинки попробуйте пригласить конкретного бота Googlebot-Image в /wp-content/uploads/

  4. Много информации можно найти о дублях. Но частенько ей пренебрегают и не уделяют времени. Я этому не исключение. Все никак серьезно этим не займусь.

  5. Александр

    Дубли страниц на сайте — это настоящее бедствие и надо стараться максимально от них избавляться.
    Константин, а открытые исходящие ссылки на каждой странице тебя не волнуют? У тебя их аж 3 штуки на каждой.

    • Александр, ссылки на самом деле закрыты, по коду страницы можно посмотреть как. Pr-cy показывает всего 6 штук исходящих со всего сайта. Это Ютуб, Твиттер, Ротабан, МайлРу и еще пару, которые были оставлены по договоренности. Именно после закрытия ссылок начался рост посещаемости. А не делиться ссылками на другие ресурсы совсем, пусть и закрытыми, как-то неправильно.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *