Rambler's Top100
 
 
  04 июля 2009 года Я здесь впервые! Компьюлента
CIO
Терралаб
Бизнес-журнал
iBusiness
в поле зрения | terralab | своя игра | интерактив | блоги | readitorial | голубятня | наука и жизнь
Файл robots.txt
Автор: Максим Приходько
Опубликовано 22 ноября 2005 года

Продолжение серии статей для начинающих сайтовладельцев. Чтение лучше начать с первой части.

Если вы когда-нибудь интересовались статистикой заходов на свой сайт, то обязательно должны были заметить, что периодически его посещают различные поисковые системы. Естественно, делают это не люди, а специальные программы, которые часто называют "роботами". "Роботы" просматривают сайт и индексируют веб-ресурс, чтобы затем его можно было найти с помощью того поисковика, чей "робот" занимался индексацией.

Все "роботы" перед индексацией ресурса ищут в корневом каталоге вашего сайта файл с именем robots.txt. Этот файл содержит информацию о том, какие файлы "роботы" могут индексировать, а какие нет. Это полезно в тех случаях, когда вам нежелательна индексация некоторых страниц, например, содержащих "закрытую" информацию.

Файл robots.txt должен иметь формат текстового файла для Unix. Некоторые редакторы умеют преобразовывать обычные Windows-файлы, иногда это может сделать FCT-клиент. Файл состоит из записей, каждая из которых содержит два поля: строку с названием клиентского приложения (user-agent), и одну или несколько строк, начинающихся с директивы Disallow:

<Поле> ":" <значение>

Строка User-agent содержит название "робота". Например:

User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Названия роботов можно найти в журналах доступа к Вашему веб-серверу.

Вторая часть команды состоит из строк Disallow. Эти строки - директивы для данного "робота". Они сообщают "роботу" какие файлы и/или каталоги роботу запрещено индексировать. Например:

Disallow: email.htm

Директива может содержать и название каталога:

Disallow: /cgi-bin/

В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит "паукам" индексировать и /bob.html, и /bob/index.html.

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум, одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Новости партнеров
Загружается, подождите...
Ну и как вам Firefox 3.5?






  
Результаты опросов

/  свежий номер

Обложка журнала
Редакционный блог журнала "Компьютерра".
Анонс свежего номера.


Архив номеров журнала

О проекте | Распространение | Подписка | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция | Компьютерра на Twitter

© ООО «Компьютерра–Онлайн», 1997 — 2009.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
комплексный интернет маркетинг - ТриЛан
Сайт работает на сервере DEPO Computers
Rambler's Top100