Правильная настройка файла robots.txt

robots

Любой поисковый робот при посещении сайта изначально ищет файл, который называется robots txt, и если вы являетесь вебмастером, то вам обязательно нужно знать назначение данного файла и его синтаксис.

Сам по себе файл robots.txt представляет собой текстовый файл, который располагается в корневой директории сайта. В этот файл записываются специальные инструкции для роботов поисковых систем. Наиболее распространённые из них это запрет к индексации некоторых разделов или страниц на вашем сайте. Так же могут быть рекомендации для робота как часто скачивать документы с сервера и т.д.

Создание файла robots.txt

Для создания данного файла нужен обычный текстовый файл с расширением txt . Создать его можно на вашем компьютере в стандартной программе «Блокнот». Поместить этот файл необходимо в корень сайта.

Но в этом отношении будьте внимательны, так как если ваш сайт разработан на одной из популярных CMS, таких как Drupal, WordPress и т.д., то данный файл там по умолчанию уже присутствует.

Стандартный синтаксис файла robots.txt

В файле содержатся определенные правила, которые говорят поисковой системе, что ей необходимо индексировать, а что запрещено. Кроме того в файле есть возможность указывать для какой именно поисковой системы мы запрещаем или разрешаем, то или иное действие. Обычно в файле robots.txt указываются правила для всех поисковиков одновременно.

Файл роботс должен начинать всегда с оператора «User-Agent» . Оператор «User-Agent» должен иметь параметр – название робота поисковой системы, к которому мы хотим применить правила.

Если мы хотим прописывать правила для всех роботов, то в параметре указываем *. Выглядит это так:

User-agent: *

Если же хотите указать непосредственно название робота, то их список представлен ниже:

Поисковая система

Имя робота

Для всех

*

Yandex

Yandex

Google

GoogleBot

Mail.ru

Mail.Ru

Rambler

StackRambler

Yahoo

Slurp

 

Соответственно, например, правило для  робота Google будет выглядеть следующим образом:

User-agent: GoogleBot

Остальные операторы robots.txt

После главного оператора «User-Agent» указываются операторы непосредственно действий, которые мы хотим указать роботу.

Оператор Disallow

Данный оператор запрещает индексировать разделы, которые мы укажем в параметре.

Оператор  Allow

Соответственно это оператор, обратный оператору Disallow. Он разрешает индексировать определённые разделы нашего сайта. Данный оператор не является обязательным, так как если мы его не укажем, то робот все равно проиндексирует весь сайт. Либо проиндексирует все, кроме того, что запрещено оператором Disallow.

Оператор Host

Благодаря этому оператору мы указываем главный домен нашего сайта. Так как у нас могут быть зеркала сайта.

Оператор Sitemap

Оператор Sitemap указывает адрес, где расположена карта сайта.

 

Основной принцип файла robots.txt

Все операторы, которые мы указываем в файле, имеют один простой синтаксис.

Сначала идет оператор, а затем параметр.

Оператор1:  параметр1
Оператор2:  параметр2

Важный момент, который стоит всегда помнить, что пустая строчка в файле означает, что правила для данного поисковика закончены. Поэтому не разделяйте операторы пустой строчкой.

Пример файла robots

User-agent: GoogleBot
Disallow: /file.html
Disallow: /test

User-agent: *
Disallow: /document.css
Disallow: /folder
Disallow: /folder/folder1
Disallow: /feed/

 

Обязательно проверьте, есть ли у вас на сайте файл роботс. Его наличие поможет продвигаться вашему сайту в различных поисковых системах, что конечно скажется на увеличении трафика на ваш сайт.