close
14 мая 2018

Исправляем ошибки в robots.txt

Что такое robots.txt?

Robots.txt - это текстовый файл, расположенный в корневом каталоге сайта, в котором прописаны указания по индексации страниц для поисковых роботов. С помощью данного файла мы можем указывать поисковым системам, какие страницы на web-ресурсе нужно сканировать, а какие - нет.

Почему robots.txt важен для продвижения?

Этот файл дает поисковым системам важные указания, которые напрямую будут влиять на результативность продвижения сайта. Например, в нем можно запретить к индексации мусорные или некачественные страницы, а также закрыть системную информацию CMS, например, страницу с доступом в административную панель.

Dissalow: /admin

Инструкция по использованию robots.txt

Какие директивы используются в robots.txt 

  1. User-agent - основная директива, которая указывает, для какого поискового робота прописаны дальнейшие указания по индексации, например:

    Для всех роботов:
    User-agent: *

    Для поискового робота Яндекс:
    User-agent: Yandex

  2. Disallow и Allow. Disallow - закрывает раздел или страницу от индексации. Allow - принудительно открывает страницы сайта для индексации.

    Операторы, которые используются с этими директивами:

    • * - этот спецсимвол обозначает любую последовательность символов. Например, все URL сайта, которые содержат значения, следующие после этого оператора, будут закрыты от индексации:

      User-agent: *
      Disallow: /cgi-bin* # блокирует доступ к страницам 
                          # начинающимся с '/cgi-bin'
      Disallow: /cgi-bin # то же самое
    • $ - используется, чтобы отменить * на конце правила, например:

      User-agent: *
      Disallow: /example$ # запрещает '/example', 
                          # но не запрещает '/example.html'
  3. Crawl-delay - директива, которая позволяет указать минимальный промежуток времени между окончанием загрузки одной страницы и началом загрузки следующей. Использовать ее следует в случаях, если сервер сильно загружен и не успевает обрабатывать запросы поискового робота.

    User-agent: *
    Crawl-delay: 3.0 # задает тайм-аут в 3 секунды
    
  4. Clean-param - используется в случае, если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое. Подробнее прочитать про эту директиву можно в указаниях от Яндекс, ссылка на которые расположена выше.
  5. Sitemap - карта сайта для поисковых роботов, которая содержит всю иерархическую структуру web-ресурса. Помогает поисковым роботам быстрее индексировать страницы сайта. В robots.txt следует указать путь к странице, в которой содержится файл sitemap.

    Пример использования:

    Sitemap: site.ru/sitemap.xml

Пример правильно составленного файла robots.txt:

User-agent: * # сайт могут индексировать все поисковые роботы
Allow: /      # сайт открыт для индексации

Sitemap: http://www.site.ru/sitemap.xml   # карта сайта для поисковых систем

Как обнаружить ошибки в robots.txt  с помощью сервиса Labrika

Отчет "Ошибки в robots.txt" находится в разделе "Технический аудит" левого бокового меню.

В случае, если при создании или редактировании файла вы допустили ошибку, Labrika вам укажет, где именно находится ошибка, и после этого вы сможете ее самостоятельно исправить.

Пример страницы с отчетом:

  1. При нажатии на эту кнопку вы обновите данные о наличии ошибок в файле robots.txt.
  2. Директива, в которой находится ошибка.
  3. Ошибка, которую обнаружила Labrika

С помощью этого отчета вы сможете постоянно поддерживать файл robots.txt в рабочем состоянии и вовремя исправлять все ошибки.

О том, как написать правильный robots.txt, вы можете прочитать в нашей статье.

Онлайн SEO-сервис Labrika

Получите рекомендации для продвижения сайта на основе 178 требований поисковых систем