- Google повністю обробляє ваш сайт
- Файл robots.txt ігнорує значення посилання
- Приклад файлу robots.txt для WordPress
- Що вам потрібно зробити зі своїм файлом robots.txt?
- Чи потрібно посилатися на карту сайту з robots.txt?
57
Файл robots.txt - дуже потужний файл, якщо ви займаєтеся пошуковим просуванням сайту. У той же час він повинен використовуватися з обережністю. Це файл дозволять заховати від пошукових систем певні файли і папки, але дуже часто це не те, що ви хотіли сделать.За роки свого існування пошукові системи, особливо Google, багато в чому змінили свої алгоритми обходу веб-ресурсів, тому кращі з старих методів вже не актуальні. Нижче ми розповімо про кращі методи роботи з robots.txt сьогодні і причини, за якими ці методи можна вважати кращими.
Google повністю обробляє ваш сайт
Google більше не дурнуватий немовля, який просто вибирає на сайті html-код, ігноруючи таблиці стилів і код JavaScript. Тепер він сканує всі і відображає сторінки сайту повністю.
Це означає, що забороняти Google доступ до файлів CSS або JavaScript - не дуже хороше рішення. Тому не блокуйте доступ до цих файлів на своєму сайті.
Стара практика блокування доступу до папок, плагінами і wp-includes вже не працює. Ось чому для WordPress 4.0 краще використовувати «заплатки», які видаляють wp-includes /.* з файлу robots.txt, що поставляється за замовчуванням з WordPress.
$ Output. = "Disallow: $ path / wp-includes / \ n";
Безліч тем також використовують асинхронні запити до JavaScript, так звана мова AJAX, щоб додавати на сторінку контент. За замовчуванням WordPress раніше блокував і ці запити. У версії WordPress 4.4 ця проблема була усунена.
Файл robots.txt ігнорує значення посилання
Дуже важливо пам'ятати ось про що. Якщо ви блокуєте URL-адреси на сайті за допомогою robots.txt, пошукові машини не зайдуть на ці сторінки. Це також означає, що вони не зможуть видати значення посилання, що вказує на цю адресу.
Тому якщо у вас є частина сайту, яку ви не хочете показувати в результатах пошуку, але на яку є багато посилань з інших сторінок, не використовуйте robots.txt. Замість цього використовуйте директиви «noindex», «follow» метатега robots. Вони дозволять пошуковим машинам коректно видавати значення посилань для цих сторінок в контексті всього сайту.
Приклад файлу robots.txt для WordPress
Так що ж повинно бути в вашому файлі robots.txt? Ви більше нічого не блокуєте! Ви не блокуєте директорію / wp-content / plugins /, так як плагіни можуть звертатися до JavaScript або CSS, які потрібні Google для відображення сторінки.
Також ви не блокуєте директорію / wp-includes /, так як за замовчуванням багато тем WordPress використовують JavaScripts, розташований в цих директоріях.
Також не блокуйте папку / wp-admin /.
Причина проста: якщо ви заблокуєте доступ до цієї папки, але десь випадково до неї зверніться, люди все одно зможуть зробити простий запит [inurl: wp-admin] в Google і знайти ваш сайт. Цей тип запитів відноситься до улюблених запитам хакерів і зловмисників.
Набагато більш акуратним рішенням для того, щоб пошукові системи не показували сторінки адміністрування WordPress в результатах пошуку, буде використання HTTP-заголовка X-Robots-Tag.
Що вам потрібно зробити зі своїм файлом robots.txt?
Вам потрібно увійти в панель Google Search Console і у вікні «Сканування» використовувати опцію «Переглянути як Googlebot» натиснути на кнопку «отримати і відобразити»:
Потім подивитися що вийшло:
Якщо те, що ви побачите, не схоже на вигляд вашого сайту в звичному браузері, або при скануванні видаються помилки і попередження, видаліть у файлі robots.txt рядки, які блокують доступ до проблемних частин сайту.
Чи потрібно посилатися на карту сайту з robots.txt?
Посилатися на XML карту сайту з robots.txt трохи абсурдно. Вам потрібно буде вручну додати їх в інструменти Google Search Console і Bing Webmaster Tools, і упевнитися, що через robots.txt видається зворотна інформація про XML-карті. Тому немає сенсу в обов'язковому додаванні такого посилання.
Txt?Txt?
Txt?
Txt?
Txt?