- 1. Як выбраць робата, да якога вы звяртаецеся?
- 2. Дырэктывы ў robots.txt.
- 3. Рэгулярныя выразы ў файле robots.txt.
Файл robots.txt - гэта інструкцыя для пошукавых робатаў (Яндэкса, Гугла), якая дапамагае ім правільна індэксаваць ваш сайта, дазваляць або забараняць індэксацыю раздзелаў, старонак. Правільны robots.txt для WordPress дазваляе індэксаваць толькі старонкі і запісы, ня засмечваючы пошукавую выдачу дублямі старонак і розным смеццем.
Такім чынам, адразу да справы. Вось аптымальны файл robots.txt для сайта на WordPress (тлумачэнні глядзіце ніжэй):
User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: / feed / Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback Disallow: * / comments Disallow: / category / * / * Disallow: * / trackback Disallow: * / * / trackback Disallow: * / * / feed / * / Disallow: * / feed Disallow: / *? * Disallow: /? s = User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: / feed / Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback Disallow: * / comments Disallow: / category / * / * Disallow: * / trackback Disallow: * / * / trackback Disallow: * / * / feed / * / Disallow: * / feed Disallow: / *? * Disallow: /? s = Host: maxtop.org Sitemap: http://maxtop.org/sitemap.xml.gz Sitemap: http://maxtop.org/sitemap.xml
Важна: зменіце адрас сайта з maxtop.org на ваш уласны!
А цяпер раскажу па парадку, якія радкі за што адказваюць.
1. Як выбраць робата, да якога вы звяртаецеся?
User-agent - гэта зварот да вызначанага пошукаваму робату. Акрамя таго, што ў кожнай пошукавай сістэмы свой робат (Яндэкс, Google), дык яшчэ і ў рамках аднаго пошукавіка ёсць дзясятак спецыфічных робатаў. Напрыклад, YandexBot - асноўны робат Яндэкса, YandexMedia - робат, індэксуецца мультымедыя - малюнкі, аўдыё, відэа, YandexImages - спецыялізаваны индексатор малюнкаў (у Яндэкс-карцінкі). Ёсць нават спецыяльныя робаты, якія скануюць микроразметку сайта.
Але нам асоба ўдавацца ў дэталі не трэба, толькі запомніце, што зорачкай (*) адзначаецца зварот да ўсіх пошукавым робатам.
2. Дырэктывы ў robots.txt.
Такім чынам, да робата мы звярнуліся, цяпер трэба даць яму каманду. Гэтыя каманды або дырэктывы могуць быць наступныя:
Disallow: - забарона на індэксацыю раздзела, старонкі, назваў паведамленняў. Вы кажаце робату: "Вось гэта не глядзі і ў пошукавую выдачу ня добавляй». Трэба для забароны індэксацыі службовых раздзелаў, адміністрацыйнай панэлі і для выдалення дубляў старонак. Дублі - гэта аднолькавыя старонкі, даступныя па розных адрасах. Напрыклад, дадзены артыкул, якую вы чытаеце даступная па адрасах:
http://maxtop.org/?p=1575 http://maxtop.org/ robots-txt-dlya-wordpress /
Аднак нам абедзве спасылкі не патрэбныя, бо гэта будзе дубль старонкі. І ў роботс.тхт мы можам закрыць такія і падобныя дублі.
Allow: - заклік да індэксацыі старонак, раздзелаў, спасылак. Вы кажаце робату: «Гэта абавязкова трэба праіндэксаваць і дадаць у пошукавую выдачу!»
Host: - гэта ўказанне асноўнага хаста або адрасы вашага сайта (супадае з назвай дамену сайта).
Sitemap: - гэта ўказанне адрасы карты сайта (у фармаце xml ці ў заархіваваны выглядзе). Вы дапамагаеце робату знайсці карту сайта, якая адлюстроўвае структуру матэрыялаў у вас на сайце.
Увага: пераканайцеся, што ў вас усталяваны ўбудова карты сайта і што па паказаным адрасе сапраўды адкрываецца карта сайта! Калі не - усталюйце убудова Google (XML) Sitemaps Generator for WordPress.
3. Рэгулярныя выразы ў файле robots.txt.
Каб ўручную ня прапісваць сотні спасылак для забароны або дазволу індэксацыі можна ўжыць рэгулярныя выразы, якія значна спросцяць вашу працу. Разгледзім прыклад:
Disallow: / category / * / *
Зорачка пазначае падстаноўку любой частцы url. Такім чынам, прыведзеная дырэктыва забараняе індэксацыю ўсіх спасылак, якія змяшчаюць частка «category». Гэта неабходна для ліквідацыі дубляў, калі адзін запіс на вашым сайце даступная па прамой спасылцы і па спасылцы з прэфіксам «category».
Іншы прыклад:
Disallow: /? S =
Гэта забарона індэксацыі ўсіх вынікаў пошуку на сайце (усё, што выдаецца ў акне пошуку па сайце).
А зараз не забудзьцеся наладзіць файл .htaccess для свайго сайта .
Падзяліцеся гэтай запісам з сябрамі, буду ўдзячны!
1. Як выбраць робата, да якога вы звяртаецеся?Disallow: /?
Disallow: /?
1. Як выбраць робата, да якога вы звяртаецеся?
Org/?