- Google цалкам апрацоўвае ваш сайт
- Файл robots.txt ігнаруе значэнне спасылкі
- Прыклад файла robots.txt для WordPress
- Што вам трэба зрабіць са сваім файлам robots.txt?
- Ці трэба спасылацца на карту сайта з robots.txt?
57
Файл robots.txt - вельмі магутны файл, калі вы займаецеся пошукавым прасоўваннем сайта. У той жа час ён павінен выкарыстоўвацца з асцярожнасцю. Гэта файл дазволяць схаваць ад пошукавых сістэм пэўныя файлы і папкі, але вельмі часта гэта не тое, што вы хацелі сделать.За гады свайго існавання пошукавыя сістэмы, асабліва Google, шмат у чым змянілі свае алгарытмы абыходу вэб-рэсурсаў, таму лепшыя з старых метадаў ўжо не актуальныя. Ніжэй мы распавядзем аб лепшых метадах працы з robots.txt сёння і прычынах, па якіх гэтыя метады можна лічыць лепшымі.
Google цалкам апрацоўвае ваш сайт
Google больш не дурнаваты немаўля, які проста выбірае на сайце html-код, ігнаруючы табліцы стыляў і код JavaScript. Цяпер ён скануе ўсе і адлюстроўвае старонкі сайта цалкам.
Гэта азначае, што забараняць Google доступ да файлаў CSS ці JavaScript - не вельмі добрае рашэнне. Таму не блакіруйце доступ да гэтых файлаў на сваім сайце.
Старая практыка блакавання доступу да дырэкторый з ўбудовамі і wp-includes ўжо не працуе. Вось чаму для WordPress 4.0 лепш выкарыстоўваць «латкі», якія выдаляюць wp-includes /.* з файла robots.txt, які пастаўляецца па змаўчанні з WordPress.
$ Output. = "Disallow: $ path / wp-includes / \ n";
Мноства тэм таксама выкарыстоўваюць асінхронныя запыты да JavaScript, так званы мова AJAX, каб дадаваць на старонку кантэнт. Па змаўчанні WordPress раней блакаваў і гэтыя запыты. У версіі WordPress 4.4 гэтая праблема была ўхіленая.
Файл robots.txt ігнаруе значэнне спасылкі
Вельмі важна памятаць вось пра што. Калі вы блакуеце URL-адрасы на сайце з дапамогай robots.txt, пошукавыя машыны не зойдуць на гэтыя старонкі. Гэта таксама азначае, што яны не змогуць выдаць значэнне спасылкі, якая паказвае на гэты адрас.
Таму калі ў вас ёсць частка сайта, якую вы не хочаце паказваць у выніках пошуку, але на якую ёсць шмат спасылак з іншых старонак, не выкарыстоўвайце robots.txt. Замест гэтага выкарыстоўвайце дырэктывы «noindex», «follow» метатега robots. Яны дазволяць пошукавым машынам карэктна выдаваць значэнне спасылак для гэтых старонак у кантэксце ўсяго сайта.
Прыклад файла robots.txt для WordPress
Так што ж павінна быць у вашым файле robots.txt? Вы больш нічога не блакуеце! Вы не блакуеце дырэкторыю / wp-content / plugins /, так як убудовы могуць звяртацца да JavaScript або CSS, якія патрэбныя Google для адлюстравання старонкі.
Таксама вы не блакуеце дырэкторыю / wp-includes /, бо па змаўчанні шмат тэм WordPress выкарыстоўваюць JavaScripts, размешчаны ў гэтых дырэкторыях.
Таксама не блакіруйце тэчку / wp-admin /.
Прычына простая: калі вы заблакуеце доступ да гэтай тэчцы, але дзе-то выпадкова да яе звярніцеся, людзі ўсё роўна змогуць зрабіць просты запыт [inurl: wp-admin] у Google і знайсці ваш сайт. Гэты тып запытаў ставіцца да любімых запытам хакераў і зламыснікаў.
Значна больш акуратным рашэннем для таго, каб пошукавыя сістэмы не паказвалі старонкі адміністравання WordPress ў выніках пошуку, будзе выкарыстанне HTTP-загалоўка X-Robots-Tag.
Што вам трэба зрабіць са сваім файлам robots.txt?
Вам трэба ўвайсці ў панэль Google Search Console і ў акне «Сканіраванне» выкарыстоўваць опцыю «Паказаць як Googlebot» націснуць на кнопку «атрымаць і адлюстраваць»:
Затым паглядзець што атрымалася:
Калі тое, што вы ўбачыце, не падобна на выгляд вашага сайта ў звыклым браўзэры, або калі адбываецца сканаваньне выдаюцца памылкі і папярэджання, выдаліце ў файле robots.txt радкі, якія блакуюць доступ да праблемных частках сайта.
Ці трэба спасылацца на карту сайта з robots.txt?
Спасылацца на XML карту сайта з robots.txt трохі абсурдна. Вам трэба будзе ўручную дадаць іх у інструменты Google Search Console і Bing Webmaster Tools, і пераканацца, што праз robots.txt выдаецца зваротная інфармацыя пра XML-карце. Таму няма сэнсу ў абавязковым даданні такой спасылкі.
Txt?Txt?
Txt?
Txt?
Txt?