Похожие страницы
Что такое дубли страниц?
Дубли страниц на сайте - это грубая SEO-ошибка, когда страницы web-ресурса в точности копируют друг друга (то есть их контент полностью идентичен), но при этом доступны они по разным URL-адресам.
Как дубли влияют на ранжирование?
Дубли негативно влияют на ранжирование вашего сайта:
- Яндекс и Google очень трепетно относятся к уникальности контента на web-ресурсах. В случае, если данные на страницах дублируются, они признаются неуникальными. При большом количестве дублей сайт понижается в результатах поиска.
- Наличие большого количества дублирующихся страниц сильно затрудняет процесс индексации сайта, так как краулинговый бюджет расходуется на дубли.
- Затрудняется продвижение посадочных страниц, так как поисковая система не может выбрать релевантную страницу из нескольких одинаковых.
- Теряется "вес" страниц, так как внутренние ссылки распределяются между дублями.
- Недобросовестные конкуренты могут найти дубли страниц и отправить их в индекс (например, с помощью ссылок на них), и в результате поисковые системы понизят сайт в результатах выдачи.
Google подробно описывает негативное влияние дублей страниц и методы борьбы с ними в своей статье "Консолидация повторяющихся URL"
Яндекс, в свою очередь, сделал видеоурок на эту тему - "Поисковая оптимизация сайта: ищем дубли страниц", где разъясняет терминологию и способы решения проблемы.
Самые частые причины возникновения дублей:
- Не сделан редирект страниц, имеющих адрес с www и без www. В этом случае каждая страница сайта дублируется, поскольку доступна по двум адресам. Например:
http://www.site.ru/page
иhttp://site.ru/page
. - Страницы сайта доступны по адресу со слэшем и без слэша. Если не настроена переадресация, то программное обеспечение сайта воспринимает эти страницы как разные:
http://site.ru/page/
- этот URL выглядит как папка на сайте - ведь заканчивается на '/'.http://site.ru/page
- а этот URL - как страница, поскольку именам страниц допустимо не иметь окончания ".php", ".html" и т. д. - Также страницы могут быть с .php на конце или без расширения. Как правило, это связано с особенностями CMS (административной панели сайта):
http://site.ru/page1
иhttp://site.ru/page1.php
. - Страницы групп товаров с разными видами сортировок:
http://site.ru/catalog?sort=date
иhttp://site.ru/catalog?sort=name
. - Один и тот же товар может быть представлен разными размерами или конфигурациями, в описаниях которых размещен абсолютно одинаковый текст:
http://site.ru/catalog/shirt155
иhttp://site.ru/catalog/shirt155?color=Orange
. - Постраничная пагинация каталога с товарами. Адрес с номером первой страницы обрабатывается также, как если бы параметр с номером не передавался совсем - получаются разные URL у одной и той же страницы:
http://site.ru/catalog
иhttp://site.ru/catalog?page=1
. - Программное обеспечение сайта может быть настроено так, что будет принимать любые дополнительные параметры. Например: есть нормальная форма страницы
http://site.ru/blog
. Можно добавить любой параметр в конец, например:http://site.ru/blog?blablabla=7777
- URL получился уже другой, и если при этом сайт не отдаст код 404 (Страница не существует), то содержимое будет полным дублем. Чтобы поисковая система проиндексировала этот дубль и стала понижать основную страницу в выдаче, достаточно где-либо добавить ссылку на него.
Как обнаружить дубли у себя на сайте?
Отчёт находится в разделе "SEO-аудит" -> "Похожие страницы".
Содержание отчёта:
- Сегментирование данных. Проставив галочку около нужного пункта, можно отфильтровать содержимое отчета так, чтобы отображались данные только по точным дублям (100 % сходства) или только по похожим страницам (сходство менее 100 %).
- Адрес страницы сайта, которая имеет дубль.
- Список дублей данной страницы.
- Процент схожести страниц.
Как устранить дубли на сайте?
Способы избавиться от дублей:
-
Некоторые ошибки устраняются путем простого исправления ссылок в редакторе сайта — в частности, когда в ссылке есть лишний параметр. Например, на странице блога стоит ссылка не на основной товар, а на его модификацию:
http://site.ru/catalog/shirt155?size=XL
вместоhttp://site.ru/catalog/shirt155
. В этом случае необходимо все ссылки привести к единому виду - без лишних параметров. -
Если дублей на сайте небольшое количество и их происхождение связано с ошибками CMS (допустим, страница доступна по адресам
http://site.ru/category/tovar
иhttp://site.ru/tovar)
, то самым простым методом решения проблемы будет запретить дубли для индексации поисковых систем в robots.txt с помощью директивы Disallow:# Содержание файла robots.txt, который обязательно должен находиться в самом корне сайта# Задаём директиву, что дальше идут правила для робота ЯндексаUser-agent: Yandex # разрешаем индексацию страниц и файлов, начинающихся с '/catalogAllow: /catalog # блокируем индексацию дублей страниц, находящихся в папке '/category'Disallow: / category
Все способы блокировки подробно описаны в инструкции «Блокировки индексации».
-
Если дубли - это системная проблема всего сайта, то лучше всего использовать атрибут
rel=canonical
.Атрибут
rel=canonical
применяется для указания поисковым системам канонической страницы. Каноническая страница - это страница на сайте, которая является предпочтительной для индексации в поисковых системах. То есть, когда поисковый робот находит этот атрибут на какой-либо странице, он индексирует не ее, а ту страницу, которая указана в атрибуте. В отличие от редиректа,rel=canonical
переадресует на другую страницу не пользователей, а только поисковые системы.Прописывается атрибут следующим образом:
# строка должна размещаться в блоке <head> на самой странице<link rel="canonical" href="https://site.ru/catalog/shirt"/>