- 1. Як вибрати робота, до якої ви звертаєтеся?
- 2. Директиви в robots.txt.
- 3. Регулярні вирази у файлі robots.txt.
Файл robots.txt - це інструкція для пошукових роботів (Яндекса, Гугла), яка допомагає їм правильно індексувати ваш сайту, дозволяти або забороняти індексацію розділів, сторінок. Правильний robots.txt для WordPress дозволяє індексувати тільки сторінки і запису, що не засмічуючи пошукову видачу дублями сторінок і різним сміттям.
Отже, відразу до справи. Ось оптимальний файл robots.txt для сайту на WordPress (пояснення дивіться нижче):
User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: / feed / Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback Disallow: * / comments Disallow: / category / * / * Disallow: * / trackback Disallow: * / * / trackback Disallow: * / * / feed / * / Disallow: * / feed Disallow: / *? * Disallow: /? s = User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: / feed / Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback Disallow: * / comments Disallow: / category / * / * Disallow: * / trackback Disallow: * / * / trackback Disallow: * / * / feed / * / Disallow: * / feed Disallow: / *? * Disallow: /? s = Host: maxtop.org Sitemap: http://maxtop.org/sitemap.xml.gz Sitemap: http://maxtop.org/sitemap.xml
Важливо: змініть адресу сайту з maxtop.org на ваш власний!
А тепер розповім по порядку, які рядки за що відповідають.
1. Як вибрати робота, до якої ви звертаєтеся?
User-agent - це звернення до певному пошуковому роботу. Крім того, що у кожної пошукової системи свій робот (Яндекс, Google), так ще й в рамках одного пошукача є десяток специфічних роботів. Наприклад, YandexBot - основний робот Яндекса, YandexMedia - робот, що індексує мультимедіа - картинки, аудіо, відео, YandexImages - спеціалізований індексатор картинок (в Яндекс-картинки). Є навіть спеціальні роботи, які сканують мікророзмітки сайту.
Але нам особливо вдаватися в деталі не треба, тільки запам'ятайте, що зірочкою (*) відзначається звернення до всіх пошукових роботів.
2. Директиви в robots.txt.
Отже, до робота ми звернулися, тепер треба дати йому команду. Ці команди або директиви можуть бути наступні:
Disallow: - заборона на індексацію розділу, сторінки, регулярного виразу. Ви говорите роботу: «Ось це не дивись і в пошукову видачу не додають». Потрібно для заборони індексації службових розділів, адміністративної панелі і для видалення дублів сторінок. Дублі - це однакові сторінки, доступні за різними адресами. Наприклад, дана стаття, яку ви читаєте доступна за адресами:
http://maxtop.org/?p=1575 http://maxtop.org/ robots-txt-dlya-wordpress /
Однак нам обидва посилання не потрібні, тому що це буде дубль сторінки. І в роботс.тхт ми можемо закрити такі і подібні дублі.
Allow: - заклик до індексації сторінок, розділів, посилань. Ви говорите роботу: «Це обов'язково потрібно проіндексувати і додати в пошукову видачу!»
Host: - це вказівка основного хоста або адреси вашого сайту (збігається з доменним ім'ям сайту).
Sitemap: - це вказівка адреси карти сайту (в форматі xml або в заархівує). Ви допомагаєте роботу знайти карту сайту, яка відображає структуру матеріалів у вас на сайті.
Увага: переконайтеся, що у вас встановлений плагін карти сайту і що за вказаною адресою дійсно відкривається карта сайту! Якщо немає - встановіть плагін Google (XML) Sitemaps Generator for WordPress.
3. Регулярні вирази у файлі robots.txt.
Щоб вручну не описує сотні посилань для заборони або дозволу індексації можна застосувати регулярні вирази, які значно спростять вашу роботу. Розглянемо приклад:
Disallow: / category / * / *
Зірочка позначає підстановку будь-якій частині url. Таким чином, наведена директива забороняє індексацію всіх посилань, що містять частину «category». Це необхідно для усунення дублів, коли одна запис на вашому сайті доступна за прямим посиланням і по посиланню з префіксом «category».
Інший приклад:
Disallow: /? S =
Це заборона індексації всіх результатів пошуку на сайті (все, що видається в вікні пошуку по сайту).
А тепер не забудьте налаштувати файл .htaccess для свого сайту .
Поділіться цим записом з друзями, буду вдячний!
1. Як вибрати робота, до якої ви звертаєтеся?Disallow: /?
Disallow: /?
1. Як вибрати робота, до якої ви звертаєтеся?
Org/?