Главная / Технический аудит / Есть в sitemap, но не найдены при обходе сайта

Есть в sitemap, но не найдены при обходе сайта

Sitemap.xml - это карта сайта для поисковых роботов, которая находится в корне сайта и содержит рекомендации того, какие страницы необходимо обходить в первую очередь и с какой частотой. Это ускоряет и упрощает процесс индексации. Создание sitemap.xml не является обязательным правилом. Такая карта должна быть на сайтах, которые имеют большое количество страниц, и в тех случаях, когда контент на страницах часто обновляется.

Sitemap, как правило, формирует программное обеспечение сайта по всем страницам, которые на нем есть. Однако не все системы администрирования сайтов знают, какие страницы запрещены для индексирования директивами в robots.txt или другим способом, и поэтому в Sitemap попадают закрытые от индексации страницы, а также страницы, созданные, но не добавленные в меню и т. д. Эти ошибки приносят массу проблем с поисковыми системами.

Разные поисковые системы обрабатывают правила в sitemap по-разному. Например, Яндекс скорей всего проиндексирует все страницы, которые есть в sitemap. Google чаще всего индексирует только те страницы, до которых можно дойти краулером переходом по ссылкам на сайте с учетом всех правил. То есть Google использует sitemap только для определения частоты сканирования страниц, а Яндекс берёт из sitemap страницы для индексации. Это является одной из причин, почему число страниц в Яндекс и Google может отличаться.

Анализ sitemap на сервисе Labrika помогает найти следующие виды ошибок:

Есть в sitemap, но не найдены при обходе сайта

Содержание отчета:

Содержание отчета Есть в sitemap, но не найдены при обходе сайта

  1. Адреса страниц.
  2. Код ответа страницы. Ошибка 404 - это стандартный код ответа HTTP о том, что страница не может быть найдена.
  3. Количество входящих ссылок, ведущих на страницу.
  4. Наличие блокировки страницы от индексации при помощи атрибута noindex.
  5. Наличие блокировки ссылок на страницу при помощи атрибута nofollow.
  6. Наличие блокировки страницы от индексации в Яндексе посредством директивы в robots.txt.
  7. Наличие блокировки страницы от индексации в Google посредством директивы в robots.txt.
  8. После нажатия кнопки "Скачать исправленный sitemap.xml" Labrika самостоятельно исправит все обнаруженные ошибки и сохранит правильную обновленную версию sitemap.xml на ваш компьютер.

Этот отчёт помогает найти так называемые страницы-сироты. Про этот термин в России знают далеко не все оптимизаторы. На Западе же он широко используется.

Страницы-сироты (бесхозные страницы) - это страницы веб-сайта, на которые нет ссылок с других страниц вашего сайта. Если такая страница даже проиндексируется поисковой системой, то PageRank (ссылочный вес) у этих страниц будет равен нулю, а значит позиции по конкурентным запросам будут сильно занижены. B интернете можно найти исследования, которые указывают на то, что несмотря на отказ от расчёта PageRank на сайт поисковые системы используют PageRank или аналогичные алгоритмы для оценки веса страниц внутри сайта. А это значит, что если посадочная страница попала в этот отчёт, то это требует срочного исправления ошибок.

отчёт помогает найти страницы-сироты

Причины ошибки могут быть следующие:

  1. На страницу ведет ссылка с документа, который сам закрыт для индексации, либо закрыты ведущие на него страницы. В результате паук поисковой системы, передвигаясь от главной страницы, доходит до закрытых страниц и не может пройти дальше, чтобы проиндексировать следующие документы.
  2. Заблокированы ссылки на нужную страницу, например, через атрибут rel=nofollow. То есть паук видит ссылку на страницу, но не переходит по ней, так как это запрещено.
  3. На страницу нет и, возможно, никогда не было ссылок.
  4. Страницу удалили в редакторе сайта и из меню, а html-файл на сайте остался.
  5. Закрыта сама страница, которая есть в sitemap. Поэтому она и не была найдена при индексации.

Чтобы исправить ошибку необходимо проверить блокировки страниц и ссылок на более низких уровнях, начиная с главной страницы сайта. Чаще всего ошибка возникает из-за того, что страницу сделали, но не добавили в меню или из-за того, что закрыли от индексации пагинацию в каталоге товаров (или в разделе блога – для информационных страниц).