Ошибки sitemap.xml

Sitemap.xml - это карта сайта для поисковых роботов, которая находится в корне сайта и содержит рекомендации того, какие страницы необходимо обходить в первую очередь и с какой частотой. Это ускоряет и упрощает процесс индексации. Создание sitemap.xml не является обязательным правилом. Такая карта должна быть на сайтах, которые имеют большое количество страниц, и в тех случаях, когда контент на страницах часто обновляется.

Sitemap, как правило, формирует программное обеспечение сайта по всем страницам, которые на нем есть. Однако не все системы администрирования сайтов знают, какие страницы запрещены для индексирования директивами в robots.txt или другим способом, и поэтому в Sitemap попадают закрытые от индексации страницы, а также страницы, созданные, но не добавленные в меню и т. д. Эти ошибки приносят массу проблем с поисковыми системами.

Разные поисковые системы обрабатывают правила в sitemap по-разному. Например, Яндекс скорей всего проиндексирует все страницы, которые есть в sitemap. Google чаще всего индексирует только те страницы, до которых можно дойти краулером переходом по ссылкам на сайте с учетом всех правил. То есть Google использует sitemap только для определения частоты сканирования страниц, а Яндекс берёт из sitemap страницы для индексации. Это является одной из причин, почему число страниц в Яндекс и Google может отличаться.

Анализ sitemap на сервисе Labrika помогает найти следующие виды ошибок:

Есть в sitemap, но не найдены при обходе сайта

Содержание отчета:

  1. Адреса страниц.
  2. Код ответа страницы. Ошибка 404 - это стандартный код ответа HTTP о том, что страница не может быть найдена.
  3. Количество входящих ссылок, ведущих на страницу.
  4. Наличие блокировки страницы от индексации при помощи атрибута noindex.
  5. Наличие блокировки ссылок на страницу при помощи атрибута nofollow.
  6. Наличие блокировки страницы от индексации в Яндексе посредством директивы в robots.txt.
  7. Наличие блокировки страницы от индексации в Google посредством директивы в robots.txt.
  8. После нажатия кнопки "Скачать исправленный sitemap.xml" Labrika самостоятельно исправит все обнаруженные ошибки и сохранит правильную обновленную версию sitemap.xml на ваш компьютер.

Этот отчёт помогает найти так называемые страницы-сироты. Про этот термин в России знают далеко не все оптимизаторы. На Западе же он широко используется.

Страницы-сироты (бесхозные страницы) - это страницы веб-сайта, на которые нет ссылок с других страниц вашего сайта. Если такая страница даже проиндексируется поисковой системой, то PageRank (ссылочный вес) у этих страниц будет равен нулю, а значит позиции по конкурентным запросам будут сильно занижены. B интернете можно найти исследования, которые указывают на то, что несмотря на отказ от расчёта PageRank на сайт поисковые системы используют PageRank или аналогичные алгоритмы для оценки веса страниц внутри сайта. А это значит, что если посадочная страница попала в этот отчёт, то это требует срочного исправления ошибок.

Причины ошибки могут быть следующие:

  1. На страницу ведет ссылка с документа, который сам закрыт для индексации, либо закрыты ведущие на него страницы. В результате паук поисковой системы, передвигаясь от главной страницы, доходит до закрытых страниц и не может пройти дальше, чтобы проиндексировать следующие документы.
  2. Заблокированы ссылки на нужную страницу, например, через атрибут rel=nofollow. То есть паук видит ссылку на страницу, но не переходит по ней, так как это запрещено.
  3. На страницу нет и, возможно, никогда не было ссылок.
  4. Страницу удалили в редакторе сайта и из меню, а html-файл на сайте остался.
  5. Закрыта сама страница, которая есть в sitemap. Поэтому она и не была найдена при индексации.

Чтобы исправить ошибку необходимо проверить блокировки страниц и ссылок на более низких уровнях, начиная с главной страницы сайта. Чаще всего ошибка возникает из-за того, что страницу сделали, но не добавили в меню или из-за того, что закрыли от индексации пагинацию в каталоге товаров (или в разделе блога – для информационных страниц).

Есть в sitemap, но закрыты от индексации

Здесь отображаются страницы, которые запрещены для индексации, но есть в sitemap.

То есть страницы по каким-то причинам закрыли от индексации, но не убрали из sitemap.

Это может привести к утечке конфиденциальной информации, появлению закрытых от индексации дублей страниц в индексе поисковых систем (+снижение позиций из-за этого) или потере краулингового бюджета в Яндексе. Google, как правило, не индексирует такие страницы. Их следует удалить из карты сайта. Если же по ошибке оказалась закрыта от индексирования страница, которая должна попасть в результаты поиска, необходимо снять блокировку индексации.

Нет в sitemap, но разрешены для индексации

Содержание отчета:

  1. Адреса страниц.
  2. Код ответа страницы. Код 200 говорит об успешной обработке запроса (страница доступна).
  3. Количество входящих ссылок, ведущих на страницу.
  4. После нажатия кнопки "Скачать исправленный sitemap.xml" Labrika самостоятельно исправит все обнаруженные ошибки и сохранит правильную версию карты сайта на ваш компьютер.

Здесь отображаются страницы, которые разрешены для индексации, но отсутствуют в sitemap. Эта ошибка самая безобидная из всех. Тем не менее, наличие страницы в sitemap даёт возможность управлять краулинговым бюджетом. Краулинговый бюджет - это лимит страниц, который поисковый робот может просканировать за определенный период времени. Важно, чтобы он расходовался на приоритетные посадочные страницы. Для этого они должны быть прописаны в sitemap.

В случае появления данной ошибки добавьте нужные страницы в карту сайта, а также проверьте, включено ли её автоматическое обновление и все ли необходимые разделы обрабатываются при формировании sitemap.

Внимание! Отчёты по sitemap будут доступны в том случае, если было выставлено достаточно лимитов, чтобы просканировать весь сайт. Иначе Labrika только определит, какие страницы включены в карту сайта, но не сможет установить весь список существующих на сайте страниц и сравнить его с содержимым sitemap.