Всё о файле robots.txt В этой статье мы на простых и наглядных примерах рассмотрим использование и предназначение файла robots.txt Со времён своего создания, а точнее говоря принятия в качестве формата в 1994 году файл robots.txt по сей день используется в качестве основного средства позволяющего вэбмастеру частично повлиять на индексирование сайта поисковыми системами. Сам по себе этот файл очень прост, для его создания не обязательно знание языков программирования, и единственной и пожалуй основной его задачей является запрещение к индексации поисковыми машинами тех участков сайта (файлы и папки), которые недолжны быть в индексе поисковиков. Использование файла абсолютно добровольно, но тем не менее очень желательно так как помогает не только вэбмастеру закрыть какие-либо секретные участки сайта или лишние файлы, но и поисковым роботам, чтобы избежать появления в индексе дублирующих друг-друга страниц, или разделов сайта непредназначенных для посетителей (административные папки, участки дополнений к сайту, баз банных основанных на файлах и прочее). Файл robots.txt всегда создают или размещают в самом корне сайта, то есть например: Если сайт называется http://www.artsinus.info, то файл robots.txt соответственно надо размастить вот так: http://www.artsinus.info/robots.txt Краткая Спецификация и использование файла robots.txt В robots.txt имеет 2 основных параметра, это — кому нельзя, и куда нельзя: User-agent: , Disallow: Давайте разберём их по порядку.1) User-agent: — так называемый юзер-агент, имя робота, для которого действует правило запрета доступа. При этом в одном Юзер-агенте можно указать не более одного робота, хотя в одном файле robots.txt допускается указание нескольких юзер-агентов. Из данного правила есть исключение — это когда создаётся правило единое для ВСЕХ роботов. Посмотрите примеры: User-agent: * - для любых поисковых роботов.
User-agent: Yandex - для робота Яндекса
User-agent: StackRambler - для робота Rambler
User-agent: Googlebot - для робота Google
User-agent: Aport - для робота Апорт
2) Disallow: — непосредственно само ограничение доступа. Этой командой можно закрывать как отдельные файлы на сайте, так и папки полностью. User-agent: и Disallow: всегда должны присутствовать в файле robots.txt, при этом на один User-agent: может применяться несколько Disallow: Примеры: Запрещает поисковому роботу Яндекса
индексирование папки "testing",
и файла "tester.html":
User-agent: Yandex
Disallow: /testing/
Disallow: /tester.html
Полный запрет индексации сайта
любым поисковым роботам [не рекомендую :-) ]
User-agent: *
Disallow: /
При этом имя файла robots.txt ВСЕГДА задаётся в нижнем регистре, то есть только маленькими буквами, и ТОЛЬКО в корне сайта. К примеру: http://www.Ваш-сайт.ru/papka1/robots.txt - неправильно!
http://www.Ваш-сайт.ru/Robots.txt - тоже неверно.
http://www.Ваш-сайт.ru/~you/robots.txt - тоже неправильно.
http://www.Ваш-сайт.ru/ROBOTS.TXT - и так он тоже работать не будет.
http://www.Ваш-сайт.ru/robots.txt - а вот так правильно. Можно ли увидеть файл robots.txt? И как его видят поисковые роботы? Конечно же этот файл можно увидеть, если набрать в адресной строке браузера адрес сайта и через слешь robots.txt, например www.yandex.ru/robots.txt. Более Вы даже можете увидеть, как на этот файл на интересующем Вас сайте смотрят сами поисковые роботы. Например, чтобы посмотреть, что в файле robots.txt видит Яндес перейдите на страничку http://www.yandex.ru/cgi-bin/test-robots, наберите в окошке имя интересующего вас сайта, и сможете увидеть файл robots.txt как говорится — глазами Яндекса. |