Похожие страницы

Что такое дубли страниц?

Дубли страниц на сайте - это грубая SEO-ошибка, когда страницы web-ресурса в точности копируют друг друга (то есть их контент полностью идентичен), но при этом доступны они по разным URL-адресам.

Как дубли влияют на ранжирование?

Дубли негативно влияют на ранжирование вашего сайта:

Яндекс и Google очень трепетно относятся к уникальности контента на web-ресурсах. В случае, если данные на страницах дублируются, они признаются неуникальными. При большом количестве дублей сайт понижается в результатах поиска.
Наличие большого количества дублирующихся страниц сильно затрудняет процесс индексации сайта, так как краулинговый бюджет расходуется на дубли.
Затрудняется продвижение посадочных страниц, так как поисковая система не может выбрать релевантную страницу из нескольких одинаковых.
Теряется "вес" страниц, так как внутренние ссылки распределяются между дублями.
Недобросовестные конкуренты могут найти дубли страниц и отправить их в индекс (например, с помощью ссылок на них), и в результате поисковые системы понизят сайт в результатах выдачи.

Google подробно описывает негативное влияние дублей страниц и методы борьбы с ними в своей статье "Консолидация повторяющихся URL"

Яндекс, в свою очередь, сделал видеоурок на эту тему - "Поисковая оптимизация сайта: ищем дубли страниц", где разъясняет терминологию и способы решения проблемы.

Самые частые причины возникновения дублей:

Не сделан редирект страниц, имеющих адрес с www и без www. В этом случае каждая страница сайта дублируется, поскольку доступна по двум адресам. Например: http://www.site.ru/page и http://site.ru/page.
Страницы сайта доступны по адресу со слэшем и без слэша. Если не настроена переадресация, то программное обеспечение сайта воспринимает эти страницы как разные: http://site.ru/page/ - этот URL выглядит как папка на сайте - ведь заканчивается на '/'. http://site.ru/page - а этот URL - как страница, поскольку именам страниц допустимо не иметь окончания ".php", ".html" и т. д.
Также страницы могут быть с .php на конце или без расширения. Как правило, это связано с особенностями CMS (административной панели сайта): http://site.ru/page1 и http://site.ru/page1.php.
Страницы групп товаров с разными видами сортировок: http://site.ru/catalog?sort=date и http://site.ru/catalog?sort=name.
Один и тот же товар может быть представлен разными размерами или конфигурациями, в описаниях которых размещен абсолютно одинаковый текст: http://site.ru/catalog/shirt155 и http://site.ru/catalog/shirt155?color=Orange.
Постраничная пагинация каталога с товарами. Адрес с номером первой страницы обрабатывается также, как если бы параметр с номером не передавался совсем - получаются разные URL у одной и той же страницы: http://site.ru/catalog и http://site.ru/catalog?page=1.
Программное обеспечение сайта может быть настроено так, что будет принимать любые дополнительные параметры. Например: есть нормальная форма страницы http://site.ru/blog. Можно добавить любой параметр в конец, например: http://site.ru/blog?blablabla=7777 - URL получился уже другой, и если при этом сайт не отдаст код 404 (Страница не существует), то содержимое будет полным дублем. Чтобы поисковая система проиндексировала этот дубль и стала понижать основную страницу в выдаче, достаточно где-либо добавить ссылку на него.

Как обнаружить дубли у себя на сайте?

Отчёт находится в разделе "SEO-аудит" -> "Похожие страницы".

Содержание отчёта:

Содержание отчёта похожие страницы

Сегментирование данных. Проставив галочку около нужного пункта, можно отфильтровать содержимое отчета так, чтобы отображались данные только по точным дублям (100 % сходства) или только по похожим страницам (сходство менее 100 %).
Адрес страницы сайта, которая имеет дубль.
Список дублей данной страницы.
Процент схожести страниц.

Как устранить дубли на сайте?

Способы избавиться от дублей:

Некоторые ошибки устраняются путем простого исправления ссылок в редакторе сайта — в частности, когда в ссылке есть лишний параметр. Например, на странице блога стоит ссылка не на основной товар, а на его модификацию: http://site.ru/catalog/shirt155?size=XL вместо http://site.ru/catalog/shirt155. В этом случае необходимо все ссылки привести к единому виду - без лишних параметров.
Если дублей на сайте небольшое количество и их происхождение связано с ошибками CMS (допустим, страница доступна по адресам http://site.ru/category/tovar и http://site.ru/tovar), то самым простым методом решения проблемы будет запретить дубли для индексации поисковых систем в robots.txt с помощью директивы Disallow:
```
# Содержание файла robots.txt, который обязательно должен находиться в самом корне сайта# Задаём директиву, что дальше идут правила для робота ЯндексаUser-agent: Yandex
# разрешаем индексацию страниц и файлов, начинающихся с '/catalogAllow: /catalog
# блокируем индексацию дублей страниц, находящихся в папке '/category'Disallow: / category
```
Все способы блокировки подробно описаны в инструкции «Блокировки индексации».
Если дубли - это системная проблема всего сайта, то лучше всего использовать атрибут rel=canonical.

Атрибут rel=canonical применяется для указания поисковым системам канонической страницы. Каноническая страница - это страница на сайте, которая является предпочтительной для индексации в поисковых системах. То есть, когда поисковый робот находит этот атрибут на какой-либо странице, он индексирует не ее, а ту страницу, которая указана в атрибуте. В отличие от редиректа, rel=canonical переадресует на другую страницу не пользователей, а только поисковые системы.

Прописывается атрибут следующим образом:
```
# строка должна размещаться в блоке <head> на самой странице<link rel="canonical" href="https://site.ru/catalog/shirt"/>
```