Файл robots.txt НЕ предназначен для того, чтобы сообщать поисковику и другим сканерам, какие страницы шпионить, но, в первую очередь, какие страницы (и каталоги) им НЕ разрешено шпионить .
Robots.txt - это первый файл, загружаемый сканером. Особенно для Google важно, чтобы ресурсы были сэкономлены. Каждая просканированная страница стоит денег . Контроль индексации является важным инструментом. Вы можете быть милым с роботами И сэкономить свой собственный бюджет обхода. Если страницы исключены из сканирования, которые в любом случае не должны ранжироваться, например, новые страницы быстрее попадают в индекс, а другие важные страницы чаще посещаются GoogleBot.
Вот несколько причин для использования robots.txt.
- Не все роботы, посещающие ваш сайт, имеют добрые намерения ! Существует множество роботов, единственной целью которых является сканирование вашего сайта и извлечение вашего адреса электронной почты для целей спама! Список «плохих» роботов появится позже.
- Возможно, вы еще не создали свой веб-сайт или он может содержать определенные части для защиты. Например, я исключил всех роботов с каждой страницы моего сайта во время разработки страниц. Я не хотел, чтобы недоделанная неоптимизированная страница была проиндексирована с неполной структурой ссылок. Это пролило бы плохой свет на меня и ABAKUS. Когда сайт был закончен, роботы также получили доступ. Кстати, эта процедура распространяется и на период Перезапускает сайт ,
- У вас есть личный кабинет, который не должен появляться в кэше Google. Отказ в доступе к роботу - один из способов сделать это.
- Есть вещи, которые вы хотите сохранить в тайне. Если вы посмотрите на файл robots.txt от ABAKUS Бросьте, вы заметите, что я отключаю индексацию профилей с форума по соображениям конфиденциальности. Некоторые веб-мастера также блокируют доступ роботов к своему cgi-bin или их графическим каталогам.
- Теперь давайте проанализируем очень простой файл robots.txt.
Агент пользователя: EmailCollector Disallow: /
Вы можете скопировать и вставить этот оператор в Блокнот, сохранить его как robots.txt, а затем скопировать в корневой каталог вашего сервера (каталог, в котором находится индексный файл). Вы отказываете в доступе на свой сайт раздражающей программе под названием EmailCollector. Это хорошая новость для вашего почтового ящика!
К сожалению, у меня нет места для полного урока на robots.txt. Тем не менее, я могу рекомендовать это вам: SELFHTML - управляющие роботы
robots.txt: пример
Основная структура довольно проста. Сначала роботу-гусеницу адресовано. Если подана одна апелляция, то встречаются звёздочка / Звездочка "*":
Пользователь-агент: *
Затем следует каталог или файл, который не должен быть просканирован, например:
Запретить: / не здесь /
Путь от корневого каталога всегда указывается, потому что там также находится файл robots.txt.
Попробуйте найти robots.txt нашего домена.
robots.txt: генератор
Генератор robots.txt IMN может генерировать совершенно новый файл robots.txt, но вы также можете прочитать существующий файл robots.txt и загрузить его. Существует предварительный выбор ботов, которые можно использовать, также можно указать карту сайта XML с помощью.
Нажмите здесь для генератора Robots.TXT от Интернет-маркетинг ниндзя ,
Существует также функция сравнения для сравнения существующего и вновь созданного файла robots.txt вашего домена.
О редакторе ABAKUS
ABAKUS Internet Marketing является одним из пионеров поисковой оптимизации в Германии с 2002 года. За это время мы оптимизировали бесчисленное количество клиентских веб-сайтов для Google. Мы делимся своими знаниями в области SEO не только здесь, в блоге и руководствах, но также в лекциях, семинарах и технических статьях.
Все статьи из: ABAKUS редакция