Robots txt sadržaj. Kako urediti txt datoteku robota. Čemu služi postavljanje datoteke?

Datoteka robots.txt nalazi se u korijenskom direktoriju vaše stranice. Na primjer, na web stranici www.example.com adresa datoteke robots.txt izgledat će kao www.example.com/robots.txt. Datoteka robots.txt je obična tekstualna datoteka, koji je u skladu sa standardom za isključivanje robota i uključuje jedno ili više pravila, od kojih svako zabranjuje ili dopušta određenom robotu za pretraživanje da pristupi određenom putu na stranici.

Evo primjera jednostavna datoteka robots.txt s dva pravila. U nastavku su objašnjenja.

# Grupa 1 User-agent: Googlebot Disallow: /nogooglebot/ # Grupa 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml

Objašnjenja

Korisnički agent pod nazivom Googlebot ne bi trebao indeksirati direktorij http://example.com/nogooglebot/ i njegove poddirektorije.
Svi ostali korisnički agenti imaju pristup cijeloj stranici (može se izostaviti, rezultat će biti isti, jer puni pristup predviđeno prema zadanim postavkama).
Datoteka karte web mjesta ova se stranica nalazi na http://www.example.com/sitemap.xml.

U nastavku je nekoliko savjeta za rad s datotekama robots.txt. Preporučamo da proučite punu sintaksu ovih datoteka, budući da pravila sintakse korištena za njihovu izradu nisu očita i morate ih razumjeti.

Format i izgled

Datoteku robots.txt možete stvoriti u gotovo svakom uređivač teksta s podrškom za UTF-8 kodiranje. Izbjegavajte korištenje programa za obradu teksta jer oni često spremaju datoteke u zaštićenom formatu i dodaju nedopuštene znakove, poput vitičastih navodnika, koje roboti za pretraživanje ne prepoznaju.

Prilikom izrade i testiranja datoteka robots.txt koristite alat za testiranje. Omogućuje vam da analizirate sintaksu datoteke i saznate kako će ona funkcionirati na vašoj stranici.

Pravila koja se odnose na format i mjesto datoteke

Datoteka bi se trebala zvati robots.txt.
Na stranici bi trebala postojati samo jedna takva datoteka.
Mora se smjestiti datoteka robots.txt korijenski direktorij mjesto. Na primjer, za kontrolu indeksiranja svih stranica na web mjestu http://www.example.com/, datoteka robots.txt trebala bi se nalaziti na http://www.example.com/robots.txt. Ne bi trebao biti u poddirektoriju(npr. na adresi http://example.com/pages/robots.txt). Ako imate poteškoća s pristupom korijenskom direktoriju, obratite se svom pružatelju usluga hostinga. Ako nemate pristup korijenskom direktoriju stranice, upotrijebite alternativnu metodu blokiranja kao što su meta oznake.
Datoteka robots.txt može se dodati adresama s poddomene(na primjer http:// web stranica.example.com/robots.txt) ili nestandardne portove (na primjer, http://example.com: 8181 /robots.txt).
Svaki tekst nakon simbola # smatra se komentarom.

Sintaksa

Datoteka robots.txt mora biti tekstualna datoteka kodirana UTF-8 (koja uključuje ASCII kodove znakova). Drugi skupovi znakova ne mogu se koristiti.
Datoteka robots.txt sastoji se od skupine.
Svaki skupina može sadržavati nekoliko pravila, jedan po retku. Ova pravila se također nazivaju direktive.
Grupa uključuje sljedeće podatke:
- U kojoj korisnički agent Primjenjuju se grupne upute.
- imati pristup.
- Kojim direktorijima ili datotekama ovaj agent pristupa? Nema pristupa.
Upute grupe čitaju se odozgo prema dolje. Robot će slijediti pravila samo jedne grupe s korisničkim agentom koji joj najviše odgovara.
Prema zadanim postavkama pretpostavlja se da ako pristup stranici ili imeniku nije blokiran Disallow: pravilom, tada ga korisnički agent može obraditi.
Pravila osjetljivo na velika i mala slova. Stoga se pravilo Disallow: /file.asp primjenjuje na URL http://www.example.com/file.asp, ali ne i na http://www.example.com/File.asp.

Direktive koje se koriste u datotekama robots.txt

Korisnički agent: Obavezna direktiva, može ih biti nekoliko u grupi. Određuje koja tražilica robot moraju se primjenjivati pravila. Svaka grupa počinje ovim retkom. Većina korisničkih agenata vezanih uz Googlebots može se pronaći na posebnom popisu iu Internet Robots Database. Podržan je zamjenski znak * za označavanje prefiksa, sufiksa staze ili cijele staze. Upotrijebite znak * kao što je prikazano u primjeru ispod da biste blokirali pristup svim alatima za indeksiranje ( osim AdsBot robota, što se mora posebno navesti). Preporučujemo da se upoznate s popisom Google robota. Primjeri:# Primjer 1. Blokiranje pristupa samo Googlebotu User-agent: Googlebot Disallow: / # Primjer 2. Blokiranje pristupa Googlebotu i AdsBot robotima User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Primjer 3. Blokiranje pristupa svi roboti , s izuzetkom AdsBot User-agent: * Disallow: /
Zabrani: . Pokazuje na direktorij ili stranicu u odnosu na korijensku domenu koju ne može indeksirati korisnički agent definiran gore. Ako je ovo stranica, mora biti naveden puni put do nje, baš kao u adresnoj traci preglednika. Ako se radi o direktoriju, put mora završavati kosom crtom (/). Podržan je zamjenski znak * za označavanje prefiksa, sufiksa staze ili cijele staze.
Dopusti: Najmanje jedna naredba Disallow: ili Allow: mora biti u svakoj grupi. Pokazuje na direktorij ili stranicu u odnosu na korijensku domenu koju može indeksirati korisnički agent definiran gore. Koristi se za nadjačavanje naredbe Disallow i dopuštanje skeniranja poddirektorija ili stranice u direktoriju koji je zatvoren za skeniranje. Ako je ovo stranica, mora biti naveden puni put do nje, baš kao u adresnoj traci preglednika. Ako se radi o direktoriju, put mora završavati kosom crtom (/). Podržan je zamjenski znak * za označavanje prefiksa, sufiksa staze ili cijele staze.
Sitemap: Neobavezna direktiva; u datoteci ih može biti nekoliko ili nijedna. Označava lokaciju Sitemapa koji se koristi na ovoj stranici. URL mora biti potpun. Google ne obrađuje niti provjerava valjanost varijacija URL-a s prefiksima http i https, sa ili bez elementa www. Sitemapovi govore Googleu koji sadržaj moram skenirati i kako ga razlikovati od sadržaja koji Limenka ili Zabranjeno je skenirati. Primjer: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Ostala pravila se zanemaruju.

Još jedan primjer

Datoteka robots.txt sastoji se od grupa. Svaki od njih počinje linijom User-agent, koja definira robota koji mora slijediti pravila. Ispod je primjer datoteke s dvije grupe i komentarima objašnjenja za obje.

# Blokirajte Googlebotov pristup example.com/directory1/... i example.com/directory2/... # ali dopustite pristup directory2/subdirectory1/... # Pristup svim drugim direktorijima dopušten je prema zadanim postavkama. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blokiraj pristup cijeloj stranici drugoj tražilici. Korisnički agent: anothercrawler Disallow: /

Puna sintaksa datoteke robots.txt

Potpuna sintaksa opisana je u ovom članku. Preporučujemo da se upoznate s njom jer postoje neke važne nijanse u sintaksi datoteke robots.txt.

Korisna pravila

Evo nekih uobičajenih pravila za datoteku robots.txt:

Pravilo	Primjer
Zabrana indeksiranja cijele stranice. Imajte na umu da u nekim slučajevima URL-ovi web-mjesta mogu biti prisutni u indeksu čak i ako nisu pretraženi. Imajte na umu da se ovo pravilo ne odnosi na AdsBot robote, koji se moraju posebno navesti.	Korisnički agent: * Disallow: /
Za sprječavanje skeniranja imenika i svih njegovih sadržaja, stavite kosu crtu nakon naziva imenika. Ne koristite datoteku robots.txt za zaštitu povjerljivih podataka! U ove svrhe treba koristiti autentifikaciju. URL-ovi koje datoteka robots.txt ne smije indeksirati mogu se indeksirati, a sadržaj datoteke robots.txt može vidjeti bilo koji korisnik i tako otkriti lokaciju datoteka s osjetljivim informacijama.	User-agent: * Disallow: /calendar/ Disallow: /junk/
Omogućiti indeksiranje samo jednom alatu za indeksiranje	User-agent: Googlebot-news Dopusti: / User-agent: * Disallow: /
Da biste omogućili indeksiranje za sve alate za indeksiranje osim jednog	Korisnički agent: Unnecessarybot Disallow: / Korisnički agent: * Dopusti: /
Kako biste spriječili indeksiranje određene stranice, navedite ovu stranicu nakon kose crte.	Korisnički agent: * Disallow: /private_file.html
Za skrivanje određene slike od robota Google slike	Korisnički agent: Googlebot-Image Disallow: /images/dogs.jpg
Da biste sakrili sve slike sa svoje stranice od Google Images robota	Korisnički agent: Googlebot-Image Disallow: /
Kako biste spriječili skeniranje svih datoteka određene vrste(u ovom slučaju GIF)	Korisnički agent: Googlebot Disallow: /*.gif$
Za blokiranje određenih stranica na vašoj web-lokaciji, ali i dalje prikazivanje AdSense oglasa na njima, koristite pravilo Disallow za sve robote osim za Mediapartners-Google. Kao rezultat toga, ovaj će robot moći pristupiti stranicama uklonjenim iz rezultata pretraživanja kako bi odabrao oglase za prikaz određenom korisniku.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Za navođenje URL-a koji završava na određenom fragmentu, koristite simbol $. Na primjer, za URL-ove koji završavaju na .xls, koristite sljedeći kôd:	Korisnički agent: Googlebot Disallow: /*.xls$

Većina robota dobro je dizajnirana i ne stvara probleme vlasnicima web stranica. Ali ako je bot napisao amater ili je "nešto pošlo po zlu", tada može stvoriti značajno opterećenje web stranice koju indeksira. Usput, pauci uopće ne ulaze u poslužitelj kao virusi - oni jednostavno zahtijevaju stranice koje su im potrebne na daljinu (zapravo, to su analozi preglednika, ali bez funkcije pregledavanja stranica).

Robots.txt - direktiva korisničkog agenta i botovi tražilice

Robots.txt ima vrlo jednostavnu sintaksu, koja je vrlo detaljno opisana, na primjer, u Yandex pomoć I Google pomoć. Obično označava kojem su pretraživaču sljedeće direktive namijenjene: ime bota (" Korisnički agent"), dopuštajući (" Dopusti") i zabranjujući (" Zabraniti"), a "Sitemap" se također aktivno koristi za označavanje tražilicama gdje se točno nalazi datoteka karte.

Standard je nastao dosta davno i nešto je dodano kasnije. Postoje direktive i pravila dizajna koje će razumjeti samo roboti određenih tražilica. U RuNetu su zanimljivi samo Yandex i Google, što znači da biste se trebali detaljno upoznati s njihovom pomoći pri sastavljanju robots.txt (veze sam naveo u prethodnom odlomku).

Na primjer, ranije za pretraživač Bilo je korisno za Yandex da naznači da je vaš web projekt glavni u posebnoj direktivi "Host", koju samo ova tražilica razumije (dobro, također Mail.ru, jer njihova pretraga je iz Yandexa). Istina, početkom 2018 Yandex je ipak otkazao Host a sada njegove funkcije, kao i one drugih tražilica, obavlja preusmjeravanje 301.

Čak i ako vaš resurs nema ogledala, bit će korisno naznačiti koja je opcija pravopisa glavna - .

Razgovarajmo sada malo o sintaksi ove datoteke. Upute u robots.txt izgledaju ovako:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Ispravan kod treba sadržavati najmanje jednu direktivu "Disallow". nakon svakog unosa “User-agent”. Prazna datoteka podrazumijeva dopuštenje za indeksiranje cijele stranice.

Korisnički agent

Direktiva "korisnički agent". mora sadržavati naziv bota za pretraživanje. Pomoću njega možete postaviti pravila ponašanja za svaku određenu tražilicu (na primjer, stvoriti zabranu indeksiranja zasebna mapa samo za Yandex). Primjer pisanja "korisničkog agenta" upućenog svim botovima koji posjećuju vaš resurs izgleda ovako:

Korisnički agent: *

Ako želite postaviti određene uvjete u "User-agent" samo za jednog bota, na primjer, Yandex, tada morate napisati ovo:

Korisnički agent: Yandex

Naziv robota tražilice i njihova uloga u datoteci robots.txt

Bot svake tražilice ima svoje ime (na primjer, za rambler je StackRambler). Ovdje ću dati popis najpoznatijih od njih:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Glavne tražilice ponekad imaju osim glavnih botova, postoje i zasebne instance za indeksiranje blogova, vijesti, slika itd. Možete dobiti mnogo informacija o vrstama botova (za Yandex) i (za Google).

Kako biti u ovom slučaju? Ako trebate napisati pravilo zabrane indeksiranja, kojeg se moraju pridržavati sve vrste Google robota, onda koristite ime Googlebot i svi ostali pauci ove tražilice također će ga poštovati. Međutim, možete samo zabraniti, na primjer, indeksiranje slika navodeći Googlebot-Image bot kao User-agent. Sada ovo nije baš jasno, ali s primjerima, mislim da će biti lakše.

Primjeri korištenja naredbi Disallow i Allow u robots.txt

Dat ću vam nekoliko jednostavnih. primjeri korištenja direktiva uz obrazloženje svojih postupaka.

Kod u nastavku omogućuje svim botovima (označenim zvjezdicom u korisničkom agentu) da indeksiraju sav sadržaj bez ikakvih iznimaka. Ovo je dano prazna direktiva Disallow. Korisnički agent: * Zabrani:
Sljedeći kod, naprotiv, u potpunosti zabranjuje svim tražilicama da dodaju stranice ovog izvora u indeks. Postavlja ovo na Disallow s "/" u polju vrijednosti. Korisnički agent: * Disallow: /
U tom slučaju, svim botovima bit će zabranjeno pregledavanje sadržaja direktorija /image/ (http://mysite.ru/image/ je apsolutni put do ovog direktorija) User-agent: * Disallow: /image/
Da biste blokirali jednu datoteku, bit će dovoljno registrirati njen apsolutni put do nje (čitaj): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Gledajući malo unaprijed, reći ću da je lakše koristiti simbol zvjezdice (*) kako ne biste napisali puni put:
Disallow: /*private_file.html
U donjem primjeru bit će zabranjen direktorij “image”, kao i sve datoteke i direktoriji koji počinju znakovima “image”, tj. datoteke: “image.htm”, “images.htm”, direktoriji: “image”, “ images1", "image34", itd.): User-agent: * Disallow: /image Činjenica je da prema zadanim postavkama na kraju unosa postoji zvjezdica, koja zamjenjuje sve znakove, uključujući njihov nedostatak. Pročitajte o tome u nastavku.
Pomoću Dopusti direktive dopuštamo pristup. Dobro nadopunjuje Disallow. Na primjer, ovim uvjetom zabranjujemo Yandex robotu za pretraživanje da preuzima (indeksira) sve osim web stranica čija adresa počinje s /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
Pa, ili ovaj očiti primjer korištenja kombinacije Dopusti i Zabrani:
Korisnički agent: * Disallow: /catalog Allow: /catalog/auto
Kada opisujete staze za Allow-Disallow direktive, možete koristiti simbole "*" i "$", definirajući tako određene logičke izraze.
1. Simbol "*"(zvijezda) znači bilo koji (uključujući prazan) niz znakova. Sljedeći primjer zabranjuje svim tražilicama indeksiranje datoteka s ekstenzijom “.php”: User-agent: * Disallow: *.php$
2. Zašto je to potrebno na kraju? znak $? Činjenica je da se, prema logici sastavljanja datoteke robots.txt, na kraju svake direktive dodaje zadana zvjezdica (nema je, ali čini se da postoji). Na primjer, pišemo: Disallow: /images
  Nagoveštavajući da je ovo isto što i:
  Zabrani: /slike*
  Oni. ovo pravilo zabranjuje indeksiranje svih datoteka (web stranica, slika i drugih vrsta datoteka) čija adresa počinje s /images, a zatim bilo što što slijedi (vidi primjer gore). Tako, simbol $ jednostavno poništava zadanu zvjezdicu na kraju. Na primjer:
  Onemogući: /slike$
  Sprječava samo indeksiranje datoteke /images, ali ne i /images.html ili /images/primer.html. Pa, u prvom smo primjeru zabranili indeksiranje samo datoteka koje završavaju na .php (imaju takav nastavak), kako ne bismo uhvatili ništa nepotrebno:
  Zabrani: *.php$

U mnogim tražilicama korisnici (ljudski čitljivi URL-ovi), dok URL-ovi generirani sustavom imaju upitnik "?" u adresi. Možete iskoristiti ovo i napisati sljedeće pravilo u robots.txt: User-agent: * Disallow: /*?

Zvjezdica iza upitnika sugerira se sama od sebe, ali, kao što smo maloprije saznali, ona se podrazumijeva već na kraju. Stoga ćemo zabraniti indeksiranje stranica za pretraživanje i drugih servisnih stranica koje je izradio motor, a do kojih robot za pretraživanje može doći. Neće biti suvišno, jer upitnik CMS najčešće koristi kao identifikator sesije, što može dovesti do uključivanja dupliciranih stranica u indeks.

Sitemap i Host direktive (za Yandex) u Robots.txt

Kako bi se izbjegli neugodni problemi s zrcalima web-mjesta, prethodno je preporučeno dodati direktivu Host u robots.txt, koja je usmjeravala Yandex bot na glavno zrcalo.

Direktiva domaćina - označava glavno ogledalo stranice za Yandex

Na primjer, ranije ako još nisu prešli na sigurni protokol, bilo je potrebno naznačiti u Hostu ne puni URL, već Naziv domene(bez http://, tj..ru). Ako ste se već prebacili na https, morat ćete navesti puni URL (kao što je https://myhost.ru).

Prekrasan alat za borbu protiv dupliciranog sadržaja - tražilica jednostavno neće indeksirati stranicu ako je u Canonicalu registriran drugačiji URL. Na primjer, za takvu stranicu mog bloga (stranica s paginacijom), Canonical pokazuje na https://site i ne bi trebalo biti problema s dupliciranjem naslova.

Ali skrenuo sam...
Ako je vaš projekt stvoren na temelju bilo kojeg motora, onda Dogodit će se dupli sadržaj s velikom vjerojatnošću, što znači da se trebate boriti protiv toga, uključujući i uz pomoć zabrane u robots.txt, a posebno u meta oznaci, jer u prvom slučaju Google može ignorirati zabranu, ali više neće moći da me briga za meta oznaku (naveden na taj način).
Na primjer, u WordPress stranice s vrlo sličnim sadržajem mogu biti uključeni u indeks tražilice ako je dopušteno indeksiranje sadržaja kategorija, sadržaja arhive oznaka i sadržaja privremenih arhiva. Ali ako pomoću gore opisane metaoznake Robots stvorite zabranu arhive oznaka i privremene arhive (možete ostaviti oznake i zabraniti indeksiranje sadržaja kategorija), tada neće doći do dupliciranja sadržaja. Kako to učiniti opisano je u linku danom gore (na OlInSeoPak dodatak)
Ukratko, reći ću da je datoteka Robots namijenjena postavljanju globalnih pravila za zabranu pristupa cijelim direktorijima stranica ili datotekama i mapama čiji nazivi sadrže određene znakove (po maski). Primjere postavljanja takvih zabrana možete vidjeti gore.
Sada pogledajmo konkretne primjere robota dizajniranih za različite motore - Joomla, WordPress i SMF. Naravno, sve tri opcije stvorene za različite CMS će se značajno (ako ne i radikalno) razlikovati jedna od druge. Istina, svi će imati jednu zajedničku stvar, a ovaj trenutak povezan je s tražilicom Yandex.
Jer U RuNetu Yandex ima prilično veliku težinu, tada moramo uzeti u obzir sve nijanse njegovog rada, a ovdje Host direktiva će pomoći. To će ovoj tražilici izričito naznačiti glavno ogledalo vaše stranice.
Za to se preporučuje korištenje zasebnog bloga korisničkog agenta, namijenjenog samo Yandexu (korisnički agent: Yandex). To je zbog činjenice da druge tražilice možda neće razumjeti Host i, sukladno tome, njegovo uključivanje u zapis User-agent namijenjen svim tražilicama (User-agent: *) može dovesti do negativnih posljedica i netočnog indeksiranja.
Teško je reći kakva je zapravo situacija, jer su algoritmi pretraživanja stvar za sebe, pa je bolje postupiti po savjetu. Ali u ovom slučaju, morat ćemo duplicirati sva pravila koja smo postavili User-agent: * u direktivi User-agent: Yandex. Ako ostavite User-agent: Yandex s praznim Disallow:, tada ćete na taj način dopustiti Yandexu da ide bilo gdje i povuče sve u indeks.
Roboti za WordPress
Neću dati primjer datoteke koju programeri preporučuju. Možete to sami gledati. Mnogi blogeri uopće ne ograničavaju Yandex i Google botove u njihovim šetnjama kroz sadržaj WordPress motora. Najčešće na blogovima možete pronaći robote koji se automatski popunjavaju dodatkom.
Ali, po mom mišljenju, ipak treba pomoći potrazi u teškoj zadaći odvajanja žita od kukolja. Prvo, bit će potrebno dosta vremena za Yandex i Google robote da indeksiraju ovo smeće, a možda neće ostati vremena za dodavanje web stranica s vašim novim člancima u indeks. Drugo, botovi koji puze kroz datoteke mehanizma za smeće dodatno će opteretiti poslužitelj vašeg hosta, što nije dobro.
Moju verziju ove datoteke možete vidjeti sami. Star je i dugo nije mijenjan, ali ja se trudim slijediti princip "ne popravljaj ono što nije pokvareno", a na vama je da odlučite: koristiti ga, napraviti svoj ili ukrasti netko drugi. I ja sam donedavno imao zabranu indeksiranja stranica s paginacijom (Disallow: */page/), no nedavno sam je uklonio oslanjajući se na Canonical o kojem sam gore pisao.
Ali općenito, jedina ispravna datoteka za WordPress vjerojatno ne postoji. U njemu, naravno, možete implementirati sve preduvjete, ali tko je rekao da će oni biti točni. Na internetu postoji mnogo opcija za idealan robots.txt.
Navest ću dvije krajnosti:
možete pronaći megafile s detaljnim objašnjenjima (simbol # odvaja komentare koje bi bilo bolje izbrisati u stvarnom fajlu): User-agent: * # Opća pravila za robote, osim Yandexa i Googlea, # jer za njih su pravila ispod Disallow: /cgi-bin # folder na hostingu Disallow: /? # svi parametri zahtjeva na glavnoj stranici Disallow: /wp- # sve WP datoteke: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # ako postoji poddirektorij /wp/ gdje CMS je instaliran (ako nije, # pravilo se može izbrisati) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # autorska arhiva Disallow: /users/ # arhiva autora Disallow: */ trackback # trackbacks, obavijesti u komentarima o pojavi otvorene # veze na članak Disallow: */feed # all feeds Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow : */wlwmanifest.xml # manifest xml datoteka Windows Live Writer (ako ga ne koristite, # pravilo se može izbrisati) Disallow: /xmlrpc.php # WordPress API datoteka Disallow: *utm= # veze s utm oznakama Disallow : *openstat= # veze s openstat oznakama Dopusti: */uploads # otvori mapu s datotekama uploads User-agent: GoogleBot # pravila za Google (ne dupliciram komentare) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /korisnici/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # otvorene js skripte unutar /wp - (/*/ - za prioritet) Dopusti: /*/*.css # otvori css datoteke unutar /wp- (/*/ - za prioritet) Dopusti: /wp-*.png # slike u dodacima, mapi predmemorije itd. Dopusti: /wp-*.jpg # slika u dodacima, mapi predmemorije itd. Dopusti: /wp-*.jpeg # slike u dodacima, mapi predmemorije itd. Dopusti: /wp-*.gif # slike u dodacima, mapi predmemorije itd. Allow: /wp-admin/admin-ajax.php # koriste dodaci kako ne bi blokirali JS i CSS User-agent: Yandex # pravila za Yandex (ne dupliciram komentare) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Dopusti: /wp-*.jpeg Dopusti: /wp-*.gif Dopusti: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex ne preporučuje blokiranje # u indeksiranju, već brisanje parametri oznake, # Google ne podržava takva pravila Clean-Param: openstat # slično # Navedite jedno ili više Datoteke karte web mjesta(nema potrebe za dupliciranjem za svaki korisnički agent #). Google XML Sitemap stvara 2 karte web-lokacije poput donjeg primjera. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Navedite glavno ogledalo web mjesta, kao u donjem primjeru (s WWW / bez WWW, ako HTTPS # zatim napišite protokol, ako trebate navesti port, označite ga). Naredbu Host razumiju # Yandex i Mail.RU, Google je ne uzima u obzir. Domaćin: www.site.ru
Ali možete upotrijebiti primjer minimalizma: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

Istina je vjerojatno negdje u sredini. Također, ne zaboravite dodati meta oznaku Robots za "dodatne" stranice, na primjer, pomoću prekrasnog dodatka - . Također će vam pomoći da postavite Canonical.
Ispravan robots.txt za Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /uključuje/ Disallow: /instalacija/ Disallow: /jezik/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
U principu, ovdje se uzima u obzir gotovo sve i dobro funkcionira. Jedina stvar je da biste trebali dodati zasebno pravilo User-agent: Yandex za umetanje direktive Host, koja definira glavno ogledalo za Yandex, te također odrediti stazu do datoteke Sitemap.
Stoga bi u svom konačnom obliku ispravni roboti za Joomlu, po mom mišljenju, trebali izgledati ovako:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /uključuje/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Host: vash_sait.ru (ili www.vash_sait.ru) User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /* .jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /uključuje/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://put do vaše karte XML format
Da, također imajte na umu da u drugoj opciji postoje direktive Dopusti, dopušta indeksiranje stilova, skripti i slika. Ovo je napisano posebno za Google, jer se njegov Googlebot ponekad žali da je indeksiranje tih datoteka, na primjer, iz mape s korištenom temom, zabranjeno u robotima. Čak prijeti da će zbog toga sniziti svoj rang.
Stoga dopuštamo da se cijela ova stvar unaprijed indeksira pomoću Dopusti. Usput, ista se stvar dogodila u primjeru datoteke za WordPress.

Sretno ti! Vidimo se uskoro na stranicama bloga
Moglo bi vas zanimati
Domene sa i bez www - povijest njihovog pojavljivanja, korištenje 301 preusmjeravanja za njihovo spajanje
Ogledala, duplicirane stranice i Url adrese - revizija vaše stranice ili što bi mogao biti uzrok neuspjeha tijekom njezine SEO promocije SEO za početnike: 10 glavnih točaka tehničke revizije web stranice
Bing webmaster - centar za webmastere s tražilice Bing
Google webmaster - alati Search Console(Google Webmaster)
Kako izbjeći uobičajene pogreške prilikom promoviranja web stranice
Kako sami promovirati web stranicu poboljšavanjem optimizacije na stranici ključne riječi i uklanjanje dupliciranog sadržaja
Yandex Webmaster - indeksiranje, veze, vidljivost stranice, odabir regije, autorstvo i provjera virusa u Yandex Webmasteru

Izrada same datoteke

Robots.txt je datoteka s uputama za robote za pretraživanje. Stvara se u korijenu stranice. Možete ga stvoriti upravo sada na radnoj površini koristeći Notepad, baš kao što stvarate bilo koju tekstualnu datoteku.

Da biste to učinili, desnom tipkom miša kliknite prazan prostor i odaberite Stvori – Tekstualni dokument(ne Word). Otvorit će se pomoću običnog notepada. Nazovite ga roboti, ekstenzija mu je već točna - txt. To je sve za stvaranje same datoteke.

Kako sastaviti robots.txt

Sada preostaje samo popuniti datoteku s potrebnim uputama. Zapravo, naredbe za robote imaju najjednostavniju sintaksu, mnogo jednostavniju nego u bilo kojem programskom jeziku. Općenito, datoteku možete ispuniti na dva načina:

Pogledajte drugu stranicu, kopirajte i promijenite kako bi odgovarala strukturi vašeg projekta.

Napiši to sam

Već sam pisao o prvoj metodi u. Prikladno je ako stranice imaju iste motore i nema značajnih razlika u funkcionalnosti. Na primjer, sve WordPress stranice imaju istu strukturu, ali mogu postojati različita proširenja, kao što su forum, internetska trgovina i mnogi dodatni direktoriji. Ako želite znati kako promijeniti robots.txt, pročitajte ovaj članak, možete pročitati i prethodni, ali ovaj će reći dosta toga.

Na primjer, imate direktorij /source na svojoj web stranici, gdje su pohranjeni izvori za članke koje pišete na svom blogu, ali drugi webmaster nema takav direktorij. A vi, na primjer, želite zatvoriti izvornu mapu od indeksiranja. Ako kopirate robots.txt iz drugog izvora, tamo neće biti takve naredbe. Morat ćete dodati svoje upute, izbrisati nepotrebne stvari itd.

Dakle, u svakom slučaju, korisno je poznavati osnovnu sintaksu instrukcija za robote, koju ćemo sada analizirati.

Kako napisati svoje upute robotima?

Prva stvar s kojom datoteka počinje je indikacija kojim tražilicama su upute upućene. To se radi ovako:

Korisnički agent: Yandex Ili korisnički agent: Googlebot

Korisnički agent: Yandex

Korisnički agent: Googlebot

Nema potrebe stavljati točku i zarez na kraju retka, ovo nije programiranje za vas). Općenito, jasno je da će u prvom slučaju samo Yandex bot čitati upute, u drugom - samo Google. Ako naredbe moraju izvršavati svi roboti, napišite ovo: User-agent:

Sjajno. Razriješili smo privlačnost robotima. Nije teško. Možete zamisliti na jednostavan primjer. Imaš tri mlađa brata, Vasju, Dimu i Petju, a ti si glavni. Tvoji su roditelji otišli i rekli ti da ih držiš na oku.

Sva trojica te nešto traže. Zamislite da im trebate dati odgovor kao da pišete upute robotima za pretraživanje. Izgledat će otprilike ovako:

User-agent: Vasya Dopusti: idi na nogomet User-agent: Dima Disallow: idi na nogomet (Dima je prošli put razbio staklo svojim susjedima, bio je kažnjen) User-agent: Petya Dopusti: idi u kino (Petya ima već 16 godina i općenito je šokiran sam što sam trebao tražiti i tvoje dopuštenje, ali dobro, pusti ga).

Tako Vasja veselo vezuje tenisice, Dima pognute glave kroz prozor gleda brata koji već razmišlja koliko će golova danas zabiti (Dima je dobio disallow naredbu, odnosno zabranu). Pa Petya ide u svoj kino.

Iz ovog primjera lako je razumjeti da je Allow dopuštenje, a Disallow zabrana. Ali u robots.txt ne dajemo naredbe ljudima, već robotima, tako da se umjesto specifičnih zadataka tamo pišu adrese stranica i direktorija kojima je potrebno dopustiti ili zabraniti indeksiranje.

Na primjer, imam web stranicu site.ru. Pokreće ga WordPress. Počinjem pisati upute:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Pa itd.

Korisnički agent: *

Onemogući: /wp-admin/

Zabrani: /wp-content/

Zabrani: /wp-includes/

Zabrani: /izvor/

Nuit. d.

Prvo sam došao do svih robota. Drugo, blokirao sam indeksiranje mapa motora, ali sam u isto vrijeme dao robotu pristup mapi za preuzimanja. Sve su slike obično tamo pohranjene i obično nisu blokirane za indeksiranje ako planirate primati promet od pretraživanja slika.

Pa, sjećate se, ranije u članku sam rekao da možete imati dodatne direktorije? Možete ih sami izraditi za razne namjene. Na primjer, na jednoj od mojih stranica postoji flash mapa u koju stavljam flash igre kako bih ih mogao pokrenuti na stranici. Ili izvor – ova mapa može pohraniti datoteke dostupne korisnicima za preuzimanje.

Općenito, nije važno kako se mapa zove. Ako ga trebate zatvoriti, navedite put do njega i naredbu Disallow.

Naredba Allow potrebna je upravo kako bi se otvorili neki dijelovi već zatvorenih odjeljaka. Uostalom, prema zadanim postavkama, ako nemate datoteku robots.txt, cijela će stranica biti dostupna za indeksiranje. To je i dobro (sigurno nećete greškom zatvoriti nešto važno), ali i loše (otvorit će se datoteke i mape koje ne bi trebale biti u rezultatima pretraživanja).

Da biste bolje razumjeli ovu točku, predlažem da ponovno pogledate ovaj dio:

Zabrani: /wp-content/ Dopusti: /wp-content/uploads/

Zabrani: /wp-content/

Dopusti: /wp-content/uploads/

Kao što vidite, prvo blokiramo indeksiranje cijelog wp-content direktorija. Pohranjuje sve vaše predloške, dodatke, ali sadrži i slike. Očito, mogu se otvoriti. Zbog toga nam je potrebna naredba Allow.

Dodatne mogućnosti

Navedene naredbe nisu jedine stvari koje se mogu specificirati u datoteci. Postoje i ovi: Host – označava glavno ogledalo stranice. Za one koji nisu znali, svaka web stranica ima dvije zadane mogućnosti pisanja za naziv domene: domain.com i www.domain.com.

Da biste izbjegli probleme, trebate navesti jednu opciju kao glavno ogledalo. To se može učiniti u alatima za webmastere iu datoteci Robots.txt. Da bismo to učinili, pišemo: Host: domain.com

Što ovo daje? Ako netko pokuša doći do vaše stranice ovako: www.domain.com, automatski će biti preusmjeren na verziju bez www, jer će ona biti prepoznata kao glavno ogledalo.

Druga direktiva je sitemap. Mislim da već razumijete da navodi put do karte web stranice u xml formatu. Primjer: http://domain.com/sitemap.xml

Opet, možete prenijeti kartu u Yandex.Webmaster, također je možete odrediti u robots.txt tako da robot čita ovaj redak i jasno razumije gdje treba tražiti kartu web stranice. Za robota je karta mjesta jednako važna kao i za Vasju - lopta s kojom će ići na nogomet. Kao da te pita (kao starijeg brata) gdje je lopta. A ti mu reci:

Iza sofe

Sada znate kako ispravno konfigurirati i promijeniti robots.txt za Yandex i, općenito, bilo koju drugu tražilicu da odgovara vašim potrebama.

Čemu služi postavljanje datoteke?

O tome sam i ranije govorio, ali ću ponoviti. Zahvaljujući jasno konfiguriranoj datoteci s naredbama za robote, možete lakše spavati znajući da se robot neće uvući u nepotreban odjeljak i neće uzeti nepotrebne stranice u indeks.

Također sam rekao da postavljanje robots.txt ne rješava sve. Konkretno, ne spašava vas od duplikata koji nastaju zbog činjenice da su motori nesavršeni. Baš kao i ljudi. Dopustili ste Vasji da ide na nogomet, ali nije činjenica da on tamo neće raditi isto što i Dima. Isto je i s duplikatima: možete dati naredbu, ali nikako ne možete biti sigurni da se nešto dodatno neće ušuljati u indeks i pokvariti pozicije.

Također se ne treba bojati dvojnika poput vatre. Na primjer, Yandex manje-više normalno tretira stranice koje imaju ozbiljne tehničke probleme. Druga stvar je da ako pokrenete posao, onda stvarno možete izgubiti ozbiljan postotak prometa za sebe. Međutim, uskoro će u našem odjeljku posvećenom SEO-u biti članak o duplikatima, tada ćemo se boriti s njima.

Kako mogu dobiti normalan robots.txt ako sam ništa ne razumijem?

Uostalom, stvaranje robots.txt nije stvaranje web stranice. Nekako je jednostavnije, pa jednostavno možete kopirati sadržaj datoteke od bilo kojeg više ili manje uspješnog blogera. Naravno, ako imate WordPress stranicu. Ako je na drugom motoru, morate pretraživati stranice koristeći isti cms. Već sam rekao kako pregledati sadržaj datoteke na tuđoj web stranici: Domain.com/robots.txt

Poanta

Mislim da se ovdje nema puno više za reći, jer pisanje uputa za robota ne bi trebao biti vaš cilj ove godine. Ovo je zadatak koji čak i početnik može obaviti za 30-60 minuta, a profesionalac uglavnom za samo nekoliko minuta. Uspjet ćete i u to ne možete sumnjati.

A da biste saznali druge korisne i važne savjete za promociju i promicanje bloga, možete pogledati naš jedinstveni. Ako primijenite 50-100% preporuka od tamo, moći ćete uspješno promovirati bilo koje web mjesto u budućnosti.

Prvo ću vam reći što je robots.txt.

Roboti.txt– datoteka koja se nalazi u korijenskoj mapi stranice, gdje su zapisane posebne upute za robote za pretraživanje. Ove upute su potrebne kako prilikom ulaska na stranicu robot ne bi uzeo u obzir stranicu/sekciju, drugim riječima, zatvorili bismo stranicu od indeksiranja.

Zašto nam treba robots.txt?

Datoteka robots.txt smatra se ključnim zahtjevom za SEO optimizaciju apsolutno svake web stranice. Nedostatak ove datoteke može negativno utjecati na opterećenje od robota i sporo indeksiranje, a štoviše, stranica neće biti potpuno indeksirana. Sukladno tome, korisnici neće moći pristupiti stranicama putem Yandexa i Googlea.

Utjecaj robots.txt na tražilice?

Tražilice(V Google značajke) će indeksirati stranicu, ali ako nema datoteke robots.txt, tada, kao što sam rekao, ne sve stranice. Ako postoji takva datoteka, tada se roboti vode prema pravilima navedenim u ovoj datoteci. Štoviše, postoji nekoliko vrsta robota za pretraživanje; dok neki mogu uzeti u obzir pravilo, drugi ga ignoriraju. Konkretno, robot GoogleBot ne uzima u obzir direktive Host i Crawl-Delay, robot YandexNews nedavno je prestao uzimati u obzir direktivu Crawl-Delay, a roboti YandexDirect i YandexVideoParser ignoriraju općeprihvaćene direktive u robots.txt (ali uzeti u obzir one koji su napisani posebno za njih).

Stranicu najviše učitavaju roboti koji učitavaju sadržaj s vaše stranice. Sukladno tome, ako kažemo robotu koje stranice da indeksira, a koje da zanemari, kao i u kojim vremenskim intervalima da učitava sadržaj sa stranica (to se više odnosi na velike stranice koje imaju više od 100.000 stranica u indeksu tražilice). To će robotu znatno olakšati indeksiranje i preuzimanje sadržaja sa stranice.

Datoteke koje su nepotrebne tražilicama uključuju datoteke koje pripadaju CMS-u, npr. u Wordpressu – /wp-admin/. Osim toga, ajax, json skripte odgovorne za skočne obrasce, bannere, captcha izlaz itd.

Za većinu robota također preporučujem blokiranje indeksiranja svih Javascript i CSS datoteka. Ali za GoogleBot i Yandex, bolje je indeksirati takve datoteke, budući da ih tražilice koriste za analizu pogodnosti web mjesta i njegovog rangiranja.

Što je direktiva robots.txt?

direktive– to su pravila za robote za pretraživanje. Prvi standardi za pisanje robots.txt i, sukladno tome, pojavili su se 1994. godine, a prošireni standard 1996. godine. Međutim, kao što već znate, ne podržavaju svi roboti određene direktive. Stoga sam u nastavku opisao čime se glavni roboti rukovode prilikom indeksiranja web stranica.

Što znači korisnički agent?

Ovo je najvažnija direktiva koja određuje koji će roboti za pretraživanje slijediti daljnja pravila.

Za sve robote:

Za određenog bota:

Korisnički agent: Googlebot

Registar u robots.txt nije bitan, možete napisati i Googlebot i googlebot

Google roboti za pretraživanje

Yandex roboti za pretraživanje


	Yandexov glavni robot za indeksiranje
	Koristi se u usluzi Yandex.Images
	Koristi se u usluzi Yandex.Video
	Multimedijski podaci
	Pretraga blogova
	Robot za pretraživanje koji pristupa stranici kada je dodaje putem obrasca "Dodaj URL".
	robot koji indeksira ikone web stranica (favicons)
	Yandex.Direct
	Yandex.Metrica
	Koristi se u usluzi Yandex.Catalog
	Koristi se u usluzi Yandex.News
YandexImageResizer	Robot za pretraživanje mobilnih usluga

Roboti za pretraživanje Bing, Yahoo, Mail.ru, Rambler

Disallow i Allow direktive

Disallow blokira indeksiranje odjeljaka i stranica vaše web stranice. Sukladno tome, Allow ih, naprotiv, otvara.

Postoje neke osobitosti.

Prvo, dodatni operatori su *, $ i #. Čemu služe?

“*” – ovo je bilo koji broj znakova i njihov nedostatak. Prema zadanim postavkama već je na kraju retka, pa nema smisla ponovno ga stavljati.

“$” – označava da znak prije njega treba doći zadnji.

“#” – komentar, robot ne uzima u obzir sve što dolazi iza ovog simbola.

Primjeri korištenja Disallow:

Zabrani: *?s=

Zabrani: /kategorija/

U skladu s tim, robot za pretraživanje zatvorit će stranice poput:

Ali stranice poput ove bit će otvorene za indeksiranje:

Sada morate razumjeti kako se izvršavaju pravila gniježđenja. Redoslijed kojim su direktive napisane apsolutno je važan. Nasljeđivanje pravila ovisi o tome koji su direktoriji navedeni, odnosno ako želimo blokirati stranicu/dokument od indeksiranja, dovoljno je napisati direktivu. Pogledajmo primjer

Ovo je naša datoteka robots.txt

Zabrani: /predložak/

Ova se direktiva također može navesti bilo gdje, a može se navesti i nekoliko datoteka karte web mjesta.

Direktiva hosta u robots.txt

Ova direktiva je neophodna za označavanje glavnog ogledala stranice (često sa ili bez www). Imajte na umu da je direktiva host navedena bez http:// protokola, ali s https:// protokolom. Direktivu uzimaju u obzir samo Yandex i Mail.ru roboti za pretraživanje, a drugi roboti, uključujući GoogleBot, neće uzeti u obzir pravilo. Domaćin treba biti naveden jednom u datoteci robots.txt

Primjer s http://

Domaćin: website.ru

Primjer s https://

Direktiva za odgodu indeksiranja

Postavlja vremenski interval za indeksiranje stranica stranice od strane pretraživačkog robota. Vrijednost je naznačena u sekundama i milisekundama.

Primjer:

Koristi se uglavnom na velikim online trgovinama, informativnim stranicama, portalima, gdje je posjećenost stranica od 5000 dnevno. Potrebno je da robot za pretraživanje podnese zahtjev za indeksiranje unutar određenog vremenskog perioda. Ako ova direktiva nije specificirana, može stvoriti ozbiljno opterećenje poslužitelja.

Optimalna vrijednost kašnjenja indeksiranja različita je za svako mjesto. Za tražilice Mail, Bing, Yahoo vrijednost se može postaviti minimalna vrijednost 0,25, 0,3, budući da ti roboti tražilice mogu indeksirati vašu stranicu jednom mjesečno, 2 mjeseca i tako dalje (vrlo rijetko). Za Yandex je bolje postaviti višu vrijednost.

Ako je opterećenje vaše stranice minimalno, nema smisla navoditi ovu direktivu.

Clean-param direktiva

Pravilo je zanimljivo jer govori alatu za indeksiranje da stranice s određenim parametrima ne moraju biti indeksirane. Navedena su dva argumenta: URL stranice i parametar. Ovu direktivu podržava tražilica Yandex.

Primjer:

Onemogući: /admin/

Onemogući: /dodaci/

Zabrani: /traži/

Disallow: /košarica/

Zabrani: *sort=

Disallow: *view=

Korisnički agent: GoogleBot

Onemogući: /admin/

Onemogući: /dodaci/

Zabrani: /traži/

Disallow: /košarica/

Zabrani: *sort=

Disallow: *view=

Dopusti: /plugins/*.css

Dopusti: /plugins/*.js

Dopusti: /plugins/*.png

Dopusti: /plugins/*.jpg

Dopusti: /plugins/*.gif

Korisnički agent: Yandex

Onemogući: /admin/

Onemogući: /dodaci/

Zabrani: /traži/

Disallow: /košarica/

Zabrani: *sort=

Disallow: *view=

Dopusti: /plugins/*.css

Dopusti: /plugins/*.js

Dopusti: /plugins/*.png

Dopusti: /plugins/*.jpg

Dopusti: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

U primjeru smo zapisali pravila za 3 različita bota.

Gdje dodati robots.txt?

Dodano u korijensku mapu stranice. Osim toga, tako da možete slijediti vezu:

Kako provjeriti robots.txt?

Yandex Webmaster

Na kartici Alati odaberite Robots.txt Analysis, a zatim kliknite provjeri

Google Search Console

Na kartici Skeniranje izabrati Alat za pregled datoteka Robots.txt a zatim kliknite provjeri.

Zaključak:

Datoteka robots.txt mora biti prisutna na svakoj web stranici koja se promovira, a samo njezina ispravna konfiguracija omogućit će vam da dobijete potrebno indeksiranje.

I na kraju, ako imate bilo kakvih pitanja, postavite ih u komentarima ispod članka, a također se pitam, kako se piše robots.txt?

Objašnjenje vrijednosti:

User-agent: * - pristupate svim tražilicama odjednom, Yandex - samo Yandex.
Disallow: navodi mape i datoteke koje su zabranjene za indeksiranje
Domaćin – unesite naziv svoje stranice bez www.
Sitemap: poveznica na XML kartu web stranice.

Postavite datoteku u korijenski direktorij web-mjesta pomoću Filezille ili putem web-mjesta za hosting. Objavite ga u glavnom direktoriju tako da bude dostupan putem veze: your_site.ru/robots.txt

Pogodan je samo za one koji imaju CNC strojeve (linkovi su pisani riječima, ne u obliku p=333). Samo idite na Settings – Permalinks, odaberite donju opciju i unesite /%postname% u polje.

Neki ljudi radije sami stvaraju ovu datoteku:

Najprije izradite bilježnicu na svom računalu i nazovite je roboti (nemojte koristiti velika slova). Na kraju postavki, njegova veličina ne smije biti veća od 500 kb.

Korisnički agent– naziv tražilice (Yandex, Googlebot, StackRambler). Ako se želite svidjeti svima odjednom, stavite zvjezdicu *

Zatim odredite stranice ili mape koje ovaj robot ne bi trebao koristiti za indeksiranje Zabraniti:

Prvo su navedena tri direktorija, a zatim određena datoteka.

Da biste omogućili indeksiranje svega i svakoga, morate napisati:

Korisnički agent: *
Zabrani:

Postavljanje robots.txt za Yandex i Google

Za Yandex Svakako trebate dodati direktivu hosta kako biste izbjegli duplicirane stranice. Ovu riječ razumije samo Yandex bot, pa upute za nju zapišite zasebno.

Za Google nema dodataka. Jedino što trebate znati je kako ga kontaktirati. U odjeljku User-agent morate napisati:

Googlebot;
Googlebot-Image – ako ograničite indeksiranje slika;
Googlebot-Mobile - za mobilna verzija mjesto.

Kako provjeriti funkcionalnost datoteke robots.txt

To možete učiniti u odjeljku "Webmaster Tools" iz Google tražilica ili na web stranici Yandex.Webmaster u odjeljku Provjerite robots.txt.

Ako ima grešaka, ispravite ih i provjerite ponovno. Postignite dobar rezultat, a zatim ne zaboravite kopirati ispravan kod u robots.txt i prenijeti ga na stranicu.

Sada imate ideju kako stvoriti robots.txt za sve tražilice. Za početnike preporučujem korištenje gotove datoteke, zamjenjujući naziv vaše web stranice.