Rambler's Top100
 
 
  20 марта 2010 года Я здесь впервые! Компьюлента
CIO
Терралаб
Бизнес-журнал
iBusiness
большие новости | terralab | своя игра | интерактив | блоги | readitorial | голубятня | наука и жизнь
Файл robots.txt
Автор: Максим Приходько
Опубликовано 22 ноября 2005 года

Продолжение серии статей для начинающих сайтовладельцев. Чтение лучше начать с первой части.

Если вы когда-нибудь интересовались статистикой заходов на свой сайт, то обязательно должны были заметить, что периодически его посещают различные поисковые системы. Естественно, делают это не люди, а специальные программы, которые часто называют "роботами". "Роботы" просматривают сайт и индексируют веб-ресурс, чтобы затем его можно было найти с помощью того поисковика, чей "робот" занимался индексацией.

Все "роботы" перед индексацией ресурса ищут в корневом каталоге вашего сайта файл с именем robots.txt. Этот файл содержит информацию о том, какие файлы "роботы" могут индексировать, а какие нет. Это полезно в тех случаях, когда вам нежелательна индексация некоторых страниц, например, содержащих "закрытую" информацию.

Файл robots.txt должен иметь формат текстового файла для Unix. Некоторые редакторы умеют преобразовывать обычные Windows-файлы, иногда это может сделать FCT-клиент. Файл состоит из записей, каждая из которых содержит два поля: строку с названием клиентского приложения (user-agent), и одну или несколько строк, начинающихся с директивы Disallow:

<Поле> ":" <значение>

Строка User-agent содержит название "робота". Например:

User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Названия роботов можно найти в журналах доступа к Вашему веб-серверу.

Вторая часть команды состоит из строк Disallow. Эти строки - директивы для данного "робота". Они сообщают "роботу" какие файлы и/или каталоги роботу запрещено индексировать. Например:

Disallow: email.htm

Директива может содержать и название каталога:

Disallow: /cgi-bin/

В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит "паукам" индексировать и /bob.html, и /bob/index.html.

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум, одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Оптимизация ИТ-инфраструктуры для снижения затрат на ИТ. Семейство решений IBM Tivoli - оптимизация систем хранения данных при существенном росте их объема. Управление хранением и защита данных. Мониторинг системных ресурсов. Управление запросами, сделанными по телефону и через каталог.

Бизнес-образование в сфере информационных технологий
Школа IT-менеджмента АНХ представляет уникальные программы подготовки для IT-директоров и специалистов – МВА CIO и “IT-менеджер”. Открыт набор в весенние группы!

Новости партнеров
Загружается, подождите...
Результаты опросов

21:34 / Голубятня: Арест серверов Агавы
Alex Muratov:
как раз с Билом я верю, т.к. регистрация в его френды - закрыта 8)

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия

© ООО «Компьютерра–Онлайн», 1997 — 2010.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
продвижение сайта - ТриЛан
Сайт работает на сервере DEPO Computers
Rambler's Top100