Любой поисковый робот при посещении сайта изначально ищет файл, который называется robots txt, и если вы являетесь вебмастером, то вам обязательно нужно знать назначение данного файла и его синтаксис.
Сам по себе файл robots.txt представляет собой текстовый файл, который располагается в корневой директории сайта. В этот файл записываются специальные инструкции для роботов поисковых систем. Наиболее распространённые из них это запрет к индексации некоторых разделов или страниц на вашем сайте. Так же могут быть рекомендации для робота как часто скачивать документы с сервера и т.д.
Создание файла robots.txt
Для создания данного файла нужен обычный текстовый файл с расширением txt . Создать его можно на вашем компьютере в стандартной программе «Блокнот». Поместить этот файл необходимо в корень сайта.
Но в этом отношении будьте внимательны, так как если ваш сайт разработан на одной из популярных CMS, таких как Drupal, WordPress и т.д., то данный файл там по умолчанию уже присутствует.
Стандартный синтаксис файла robots.txt
В файле содержатся определенные правила, которые говорят поисковой системе, что ей необходимо индексировать, а что запрещено. Кроме того в файле есть возможность указывать для какой именно поисковой системы мы запрещаем или разрешаем, то или иное действие. Обычно в файле robots.txt указываются правила для всех поисковиков одновременно.
Файл роботс должен начинать всегда с оператора «User-Agent» . Оператор «User-Agent» должен иметь параметр – название робота поисковой системы, к которому мы хотим применить правила.
Если мы хотим прописывать правила для всех роботов, то в параметре указываем *. Выглядит это так:
User-agent: *
Если же хотите указать непосредственно название робота, то их список представлен ниже:
Поисковая система |
Имя робота |
---|---|
Для всех |
* |
Yandex |
Yandex |
|
GoogleBot |
Mail.ru |
Mail.Ru |
Rambler |
StackRambler |
Yahoo |
Slurp |
Соответственно, например, правило для робота Google будет выглядеть следующим образом:
User-agent: GoogleBot
Остальные операторы robots.txt
После главного оператора «User-Agent» указываются операторы непосредственно действий, которые мы хотим указать роботу.
Оператор Disallow
Данный оператор запрещает индексировать разделы, которые мы укажем в параметре.
Оператор Allow
Соответственно это оператор, обратный оператору Disallow. Он разрешает индексировать определённые разделы нашего сайта. Данный оператор не является обязательным, так как если мы его не укажем, то робот все равно проиндексирует весь сайт. Либо проиндексирует все, кроме того, что запрещено оператором Disallow.
Оператор Host
Благодаря этому оператору мы указываем главный домен нашего сайта. Так как у нас могут быть зеркала сайта.
Оператор Sitemap
Оператор Sitemap указывает адрес, где расположена карта сайта.
Основной принцип файла robots.txt
Все операторы, которые мы указываем в файле, имеют один простой синтаксис.
Сначала идет оператор, а затем параметр.
Оператор1: параметр1
Оператор2: параметр2
Важный момент, который стоит всегда помнить, что пустая строчка в файле означает, что правила для данного поисковика закончены. Поэтому не разделяйте операторы пустой строчкой.
Пример файла robots
User-agent: GoogleBot
Disallow: /file.html
Disallow: /test
User-agent: *
Disallow: /document.css
Disallow: /folder
Disallow: /folder/folder1
Disallow: /feed/
Обязательно проверьте, есть ли у вас на сайте файл роботс. Его наличие поможет продвигаться вашему сайту в различных поисковых системах, что конечно скажется на увеличении трафика на ваш сайт.