Январь 29, 2018

Что такое дубли страниц и как их удалить

Что такое дубли страниц?

Дубли страниц на сайте - это грубая SEO-ошибка, которая характеризуется тем, что контент одной страницы полностью идентичен содержанию другой. Таким образом, они в точности копируют друг друга, но при этом доступны по разным URL-адресам. Это затрудняет индексирование страниц.

Самые частые причины возникновения дублей:

Не сделан редирект flhtcjd страниц, имеющих адреса с www и без www. В этом случае каждая страница сайта будет дублироваться, так как остается доступной по двум адресам, например: http://www.site.ru/page и http://site.ru/page - полные дубли
Страницы сайта доступны по адресу со слэшем и без слэша: http://site.ru/page/ и http://site.ru/pageТакже URL страницы может быть с .php и .html на конце либо без расширения. Как правило, это связано с особенностями cms (административной панели сайта): http://site.ru/page.html и http://site.ru/page; http://site.ru/page.php и http://site.ru/page
Отдельно стоит выделить неполные дубли страниц. В этом случае контент на двух разных страницах не будет идентичным на 100%. Сходство и дублирование может появляться по причине того, что некоторые блоки на сайте являются сквозными - например, это может быть блок о доставке, который отображается на страницах всех товаров.
Некоторые карточки интернет магазина со схожими товарами содержат идентичное описание, что также может рассматриваться как грубая ошибка.
Постраничная пагинация каталога с товарами. В этом случае текст и МЕТА-теги на всех страницах одной категории могут быть одинаковыми.

Как дубли влияют на ранжирование?

Дубли негативно влияют на ранжирование вашего сайта в выдаче - за наличие полных дубликатов страниц интернет-ресурс может с большой степенью вероятности подвергнуться пессимизации со стороны поисковых систем.

Яндекс и Google очень трепетно относятся к уникальности контента на web-ресурсах. В случае, если данные на страницах дублируются, они признаются неуникальными. За это на сайт могут быть наложены санкции.
Наличие большого количества дублей страниц сильно усложняет процесс индексации сайта и запутывает поисковых роботов.
Затрудняется продвижение посадочных страниц, так как поисковая система не может выбрать релевантную страницу из двух одинаковых.
Теряется "вес" страниц, поскольку распределяется между двумя одинаковыми документами.

Подробно описывается негативное влияние дублей и методы борьбы с ними в статье Google "Консолидация повторяющихся URL" Яндекс, в свою очередь, предлагает на эту тему видеоурок "Поисковая оптимизация сайта: ищем дубли страниц" , где разъясняется терминология и способы решения проблемы.

Как обнаружить дубли у себя на сайте?

С поиском дублей могут возникнуть трудности не только у обладателей больших web-ресурсов, но и у владельцев совсем небольших сайтов, так как некоторые дубли, возникающие из-за особенностей и ошибок CMS, очень сложно обнаружить. Быстро и без лишних трудозатрат найти дубли страниц можно с помощью онлайн сервиса Labrika. Для этого нужно просто провести анализ вашего проекта и получить отчет с результатами проверки. соответствующий отчет. Находится он в подразделе "Похожие страницы" раздела "SEO-аудит" в левом боковом меню:

В отчете вы можете увидеть следующую информацию:

Страница сайта, которая имеет дубль.
Дубль этой страницы
Процент схожести страниц. Благодаря этому проценту вы сможете определить, является ли дубль страницы полным.

Получив данные из отчета, вы сможете сэкономить время и сразу начать устранять эти ошибки.

Как устранить дубли на сайте?

Важно в первую очередь установить характер дубля и уже после этого выбирать способ его устранения.

Если копий на сайте небольшое количество и их происхождение связано с ошибками CMS (допустим, страница доступна по адресам http://site.ru/category/tovar и http://site.ru/tovar, то самым простым методом решения проблемы будет следующий.
Дубль необходимо запретить для индексации поисковых систем вручную в файле robots.txt c помощью директивы Disallow, или указать информацию о каноничных страницах с помощью rel canonical (также см. информациюо robots.txt от Google).
Затем воспользоваться формой удаления URL из индекса в Яндекс.Вебмастер - https://webmaster.yandex.ru/tools/del-url/ и инструментом аналогичного назначения в Google Search Console - https://www.google.com/webmasters/tools/url-removal
Если появление дубликатов носит системный характер и связано с такими ошибками, как, например, несклеенный домен (страница доступна по адресу с www и без www), то в таком случае необходимо выбрать главное зеркало (например, адрес сайта без www), воспользоваться командой 301 redirect (перенаправление со страниц с www на страницы без них), которая прописывается в специальном файле htaccess.
В случае, если вы имеете дело с постраничной пагинацией товаров одной категории, Яндекс советует использовать атрибутrel="canonical".
Более подробно о применении этого атрибута на страницах с пагинацией вы можете прочитать в статье Блога Яндекс"Несколько советов интернет-магазинам по настройкам индексирования".

Практические рекомендации по удалению дублей

Когда характер дублей уже понятен, важно выстроить единый алгоритм, который позволит сделать решение системным и не допускать повторного появления дублированных страниц в будущем. Ниже собраны основные рекомендации, которые подходят для большинства ресурсов, включая интернет магазина, корпоративные сайты и блог компании.

1. Настройка 301-редиректов и выбор основного зеркала

Обычно сначала выбирают одну основную версию домена: с www или без, на http или https, и фиксируют этот вариант как целевой.
После выбора домена на сервере настраивается 301-редирект со всех альтернативных версий на единый адрес, чтобы поисковый робот и пользователь всегда попадали на одну и ту же группу URL.
Редирект задают в конфигурации сервера или в файле .htaccess, если используется Apache: при обращении к дублю сервер возвращает код 301 и перенаправление на нужный URL.
В случае когда ресурса обслуживается через nginx или связку nginx + php-fpm, правила перенаправление задаются в конфигурации виртуального хоста.
Корректно настроенный 301 позволяет страницам передать накопленные сигналы, ссылок и часть ссылочного веса на основную версию без потери трафика.

2. Использование rel="canonical" и постановка канонической версии

Если по техническим причинам несколько URL должны оставаться доступными, link rel canonical href помогает указать поисковым системам, какая канонической страницы считается приоритетной.

Тег rel="canonical" добавляется в HTML-код в раздел <head> и указывает адрес, который необходимо индексировать как главный.
Такой метод особенно полезен для фильтров с get параметрами, вариантов сортировки, версий с utm-метками, а также для страниц пагинации с одинаковым содержимым.
В Яндекс.Вебмастер и Google Search Console по отчетам можно проверить, как поисковая система интерпретирует указанный canonical и нет ли конфликтов между разным сигналами.
Важно, чтобы canonical всегда вел на доступна и корректно отображаемую каноническую версию, а не на адрес, который закрыт в файле robots.txt.

Хорошим примером использования canonical может быть каталог, где одна и та же группа товара показывается с разным порядком сортировки: все вспомогательные URL указывают canonical на базовый вариант без параметров.

3. Настройка файла robots.txt и директив Disallow

Файл robots.txt расположен обычно по адресу /robots.txt и используется для передачи поисковым роботам указания, какие разделы ресурса сканировать, а какие лучше игнорировать.

Для разных поисковых систем через директиву User agent можно задать отдельные правила, но чаще достаточно общих настроек.
Директива Disallow помогает закрывать от индексации технические разделы, результаты внутреннего поиска, служебные скрипты, корзину, а также часть URL с параметрами.
В случае когда параметры создают дубликатов слишком много, их можно отфильтровать через Disallow или использовать комбинацию Disallow и rel="canonical".
При изменениях в robots.txt полезно проверять файл через инструменты вебмастер, чтобы убедиться, что важные страницы не попали под запрет.

Важное правило: robots.txt влияет на сканирование, но уже проиндексированы URL через него не удаляются. Для чувствительных разделов лучше комбинировать запрет с noindex и корректным редиректом.

4. Параметры URL и инструмент clean-param

В Яндекс.Вебмастер доступна настройка clean param, которая указывает поисковой системе, какие параметры в URL можно игнорировать при анализе содержимое.

Через clean param удобно отсечь сервисные параметры: сортировка, количество элементов, метки рекламных кампаний.
Такой подход уменьшает количество идентичным URL, которые по факту ведут к одному и тому же контент.
В Google аналогичную функцию частично выполняют настройки параметров в устаревшем разделе параметров URL и корректно настроенные canonical-теги.
После добавление параметров в clean param следует через некоторое время проверить, как изменилась индексации соответствующих разделов по отчетам в панели вебмастер.

5. Индексация, noindex и внутренняя перелинковка

Иногда удобно оставить технические URL доступными пользователю, но убрать их из индекса поисковых систем. Для этого используются теги noindex и мета-robots.

Внутри HTML можно указать <meta name="robots" content="noindex,follow">, чтобы не индексировать конкретную страницу, но позволить роботу переходить по ссылкам.
В Яндексе дополнительно поддерживается тег <noindex>...</noindex> вокруг фрагментов текст, которые не должны участвовать в ранжировании.
Важно контролировать, чтобы noindex не попадал на критически важные коммерческие разделы, иначе по ключевым запросам результаты могут резко просесть.
При переработке структуры полезно пересмотреть внутреннюю ссылочную: ключевые разделы и статьи должны получать больше внутренних ссылок, чем технические URL.

6. Работа с контентом и уникальностью

Даже при идеально выстроенных технических настройках дублирующая страница может появляться из-за небрежной работы с описания товара или статей блога.

При создании карточки товаров в каталога следует избегать копирования описания производителя без переработки: поисковые системы лучше ранжируют уникальный контент.
Разным видам товара стоит давать развернутое описание с акцентом на отличия, вместо полностью повторяющегося текста с измененным только цвет или размер.
В раздел статей не рекомендуется размещать несколько материалов с почти идентичной структурой и одинаковые заголовки: это снижает ценность блога для поискового робота.
Регулярный аудит текстов и аналитика по страницам, которые не приносят трафик, помогает вовремя находить проблемные материалы и переписывать их.

7. Мониторинг, аналитика и регулярные проверки

После начальной настройки важно периодически проверять ресурса на наличие новых дублей, особенно если активно идет создание контента, подключаются новые услуги, раздел каталога или меняется cms.

Через сервисы аналитика можно отслеживать, какие страниц приносят органический трафик, а какие остаются без посещений и при этом имеют идентичным содержание.
Инструменты типа Labrika, а также сканеры site-aудита показывают технических проблемы, количество дубликатов и помогают быстро разобраться, где именно дублирование является критичным.
Google Search Console и Яндекс.Вебмастер регулярно обновляют отчеты по индексации, исключенные URL, статусам index и причинам, по которым конкретную страниц не показывают в выдаче.
Специалиста по seo стоит подключать к проекту еще на этапе создание структуры, чтобы минимизировать технических рисков и сразу заложить правильные заголовки, title и description.

8. Что делать владельцу сайта пошагово

Провести первичный аудит с помощью Labrika и других инструментов, чтобы получить полные результаты по дублям и технических особенностям ресурса.
Разделить найденные дублированные страницы на группы: технические, контентные, возникающие из-за пагинации, фильтры, рекламные метки и т.п.
Для каждой группы выбрать наиболее подходящий способ: перенаправление, canonical, запрет в robots.txt, noindex или переработку контента.
Настроить сервер и cms так, чтобы новые URL автоматически создавались по правилам, без лишнего слешем в конце и без дублирования через index.php или другие служебные элементы.
После изменений провести повторный аудит и убедиться, что проблемная ситуация с дублированием действительно решена, а ключевые разделы начали лучше индексировать.

Такой подход позволяет сделать систему управления дублями устойчивой: даже при добавление новых материалов, карточки товара и раздел услуг риск появления лишних копий будет минимален, а продвижение сайта по важным запросам станет более предсказуемым и управляемым.

Краткий чек-лист по работе с дублями для владельца сайта

Ниже краткое резюме действий, которые помогают выстроить управляемый процесс и повысить эффективность seo.

Проверить настройки домена: протокол http https, наличие www, корректный 301-редирект на одну основную версию ресурса.
Сделать аудит через Labrika и аналогичные инструменты, чтобы найти дубли, полные копии и частичные совпадения контента.
Проанализировать, где именно дублирование возникает из-за cms, пагинации, фильтров, get параметрами, utm и других меток.
Для технических дублей настроить перенаправление и зафиксировать канонической страницы через link rel canonical href в html-коде.
Оптимизировать файл robots.txt: задать user agent, директива Disallow для служебных разделов, php-скриптов, результатов поиска и лишних параметров url.
Настроить в Яндекс.Вебмастер инструмент clean param, а в Google Search Console проверить разделы аналитика по исключенные URL и индексации.
Пересмотреть внутреннюю перелинковку: ключевые разделы каталога, карточки товара и важные статьи получить больше релевантных ссылок.
Переработать описание товара и материалы блога, сделать текст уникальный, убрать идентичным фрагменты, повысить ценность для пользователя.
Регулярно проводить аудит, проверять результаты в вебмастер-сервисах и корректно реагировать на новые сигналы поисковых систем.

Ответы на частые вопросы

Как понять, какую версию URL признать основной?

Обычно выбирают вариант без лишних параметров и с защищенным протоколом https. Такой url легче использовать во внутренних ссылках, рекламных объявлениях и материалах блога. Важно закрепить выбор через 301-редирект, rel="canonical" и обновить все ссылки в навигации, чтобы новая структура работала полностью и без расхождений.

Как поступить, если дубли связаны с фильтрами и сортировкой?

Для раздел каталога с большим количеством комбинаций фильтры удобно обрабатывать комбинированным способом: задать canonical на базовый вариант, некоторые технических параметры закрывать через clean param и Disallow, а самые трафикогенерирующие комбинации оставить как целевые, с отдельные заголовки и проработанное описание. Такой метод позволяет сохранить релевантности по узким запросам и одновременно не раздувать индексирование бесполезными дублями.

Как оценить, что проблема решена?

Через несколько недель после внесения изменений стоит открыть отчеты search console и Яндекс.Вебмастер, сравнить количество дубликатов, посмотреть, какие документы теперь проиндексированы, а какие помечены как объединенные. Если ключевые разделы начали стабильно расти по трафику и позициям в выдаче, а сервисы показывают уменьшение технических проблем, можно сделать вывод, что выбранный способ решения оказался наиболее эффективным для данного ресурса.

Обновлено 12.12.2025

Читать дальше подобные статьи

Online SEO-инструменты для продвижения сайтов