Перейти к содержимому

Фотография

Руководство по использованию robots.txt


  • Авторизуйтесь для ответа в теме
В этой теме нет ответов

#1 Razzmatazz

Razzmatazz

    Коммерсант

  • Киберсанты
  • PipPipPipPip
  • 103 сообщений
13
Хороший

Отправлено 20 Декабрь 2006 - 15:00

Руководство по использованию robots.txt




Цель этого руководства – помочь веб-мастерам и администраторам в использовании robots.txt.


Зто не спецификация – подробное описание и синтаксис можно посмотреть в стандарте исключений для роботов.
Введение


Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом:


Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта.
Где размещать файл robots.txt

Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.

http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt




На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.


Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.
Неправильное расположение robots.txt

http://www.w3.org/admin/robots.txt Файл находится не в корне сайта
http://www.w3.org/~timbl/robots.txt Файл находится не в корне сайта
ftp://ftp.w3.com/robots.txt Роботы не индексируют ftp
http://www.w3.org/Robots.txt Название файла не в нижнем регистре




Как видите, файл robots.txt нужно класть исключительно в корень сайта.
Что писать в файл robots.txt


В файл robots.txt обычно пишут нечто вроде:


User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/



В этом примере запрещена индексация трех директорий.


Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow bkb User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.


Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.


Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами


User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

User-agent: *
Disallow:



Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов


User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота


User-agent: BadBot
Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным


User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Запретить к индексации все файлы кроме одного


Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:


User-agent: *
Disallow: /docs/



Либо вы можете запретить все запрещенные к индексации файлы:


User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html


  • 0
icq #500-808

На правах рекламы




Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 скрытых пользователей