Основы HTML: robots.txt
После регистрации вашего сайта в поисковых системах, к вам пожалует так называемый паук (spider) или поисковый робот. Он пройдет по вашему сайту, начиная с файла index.* и занесет в базу данных поисковой системы всю информацию о ваших страницах. Начиная с этого момента, ваш сайт станет доступным для поиска. Учтите, что это время может оказаться довольно значительным для нового ресурса. Кроме того, у поисковых пауков есть некоторые правила, так что файлы, расположенные в папках могут не индексироваться! (Текущий пример для Яндекса: в папке меньше 8 файлов.)
Обратите внимание, что вы лично можете нигде не зарегистрироваться, но кто-нибудь даст ссылку в Интернете на ваш сайт... Дальше — читай предыдущий абзац: робот обязательно придет.
Директивы (указания) для поискового паука
С пауком необходимо договориться о том, что он может проиндексировать, а что — табу для него.
Например, вы не хотите, чтобы всеобщим поисковым достоянием становились ваши рисунки или документы, хранимые в определенной папке(ах).
Пример
NB! Текст, начиная с диеза (или решетки, #) означает коментарий с этого места и до конца строки, игнорируемый роботом. Вы это пишете для себя! Так, чтобы, может быть, через год понять, зачем вы это сделали.
Host: gymn1549.ru # Здесь должен быть адрес вашего сайта, а не гимназии, и без излишеств! # Пример: pupkin.narod.ru # This is for every spider! (Каждому поисковому "насекомому") User-Agent: * # stay away from this (отвалите ВСЕ отсюда:) Disallow: /img/ #and everything in it (и всякому файлу, в этой папочке!) Disallow: /inc/ Disallow: /be-be/tormoz.txt # Конкретный файл в папке be-be Disallow: tormoz.txt # Конкретный файл в корневой папке сайта Disallow: /be-be/*.ppt # Файлы определенного типа в папке be-be сайта
Учтите, что данный файл может быть открыт любым пользователем Интернета, так что не пытайтесь "спрятать неспрятываемое" таким способом.
Ссылки по теме
- Ходим в поисковик, запрашиваем "robots.txt". Изучаем внимательно, а не увидел – схватил.
- Be waiting...