Ispravite txt robota. Kako urediti txt datoteku robota. Zabrani - postavljanje “cigli”

💖 Sviđa li vam se? Podijelite vezu sa svojim prijateljima

Dobar dan dragi prijatelji! Sve što znaš je to optimizacija pretraživača- odgovorna i delikatna stvar. Morate uzeti u obzir apsolutno svaki detalj kako biste dobili prihvatljiv rezultat.

Danas ćemo govoriti o robots.txt - datoteci koja je poznata svakom webmasteru. Sadrži sve najosnovnije upute za robote za pretraživanje. U pravilu, rado slijede propisane upute i, ako su pogrešno sastavljene, odbijaju indeksirati web izvor. Zatim ću vam reći kako sastaviti ispravnu verziju datoteke robots.txt, kao i kako je konfigurirati.

U predgovoru sam već opisao što je to. Sada ću vam reći zašto je to potrebno. Robots.txt je mala tekstualna datoteka koja je pohranjena u korijenu stranice. Koriste ga tražilice. Jasno navodi pravila indeksiranja, odnosno koje dijelove stranice treba indeksirati (dodati u pretragu), a koje ne.

Tehnički dijelovi web-mjesta obično su zatvoreni za indeksiranje. Povremeno se nejedinstvene stranice stavljaju na crnu listu (primjer toga je copy-paste pravila o privatnosti). Ovdje se robotima “objašnjavaju” principi rada s odjeljcima koje je potrebno indeksirati. Vrlo često su pravila propisana za nekoliko robota zasebno. O ovome ćemo dalje govoriti.

Ako ispravno konfigurirate robots.txt, vaša će stranica zajamčeno napredovati u poretku tražilice. Roboti će uzeti u obzir samo koristan sadržaj, zanemarujući duple ili tehničke odjeljke.

Izrada robots.txt

Da biste stvorili datoteku, samo upotrijebite standardnu ​​funkcionalnost vašeg operacijski sustav, a zatim ga prenesite na poslužitelj putem FTP-a. Gdje se nalazi (na poslužitelju) lako je pogoditi - u korijenu. Obično se ova mapa zove public_html.

Možete jednostavno ući u njega pomoću bilo kojeg FTP klijenta (na primjer) ili ugrađenog upravitelj datoteka. Naravno, nećemo uploadati prazne robote na poslužitelj. Napišimo tamo neke osnovne direktive (pravila).

Korisnički agent: *
Dopusti: /

Koristeći ove retke u vašoj datoteci robota, kontaktirat ćete sve robote (uputa korisničkog agenta), dopuštajući im da indeksiraju cijelu vašu stranicu (uključujući sve tehničke stranice Dopusti: /)

Naravno, ova opcija nije posebno prikladna za nas. Datoteka neće biti osobito korisna za optimizaciju tražilice. Definitivno treba odgovarajuće podešavanje. Ali prije toga, pogledat ćemo sve glavne direktive i robots.txt vrijednosti.

direktive

Korisnički agentJedan od najvažnijih, jer pokazuje koji bi roboti trebali slijediti pravila koja slijede. Pravila se uzimaju u obzir do sljedećeg korisničkog agenta u datoteci.
DopustiOmogućuje indeksiranje bilo kojeg bloka resursa. Na primjer: “/” ili “/tag/”.
ZabranitiNaprotiv, zabranjuje indeksiranje odjeljaka.
SitemapPut do karte stranice (u xml formatu).
DomaćinGlavno ogledalo (sa ili bez www, ili ako imate više domena). Ovdje je također naznačen sigurni protokol https (ako je dostupan). Ako imate standardni http, ne morate ga navesti.
Odgoda puzanjaUz njegovu pomoć možete postaviti interval u kojem će roboti posjećivati ​​i preuzimati datoteke na vašoj stranici. Pomaže smanjiti opterećenje domaćina.
Clean-paramOmogućuje vam da onemogućite indeksiranje parametara na određenim stranicama (kao što je www.site.com/cat/state?admin_id8883278).
Za razliku od prethodnih direktiva, ovdje su navedene 2 vrijednosti (adresa i sam parametar).

Sve su to pravila koja podržavaju vodeće tražilice. Upravo uz njihovu pomoć stvorit ćemo naše robote, uglavnom s raznim varijacijama različiti tipovi stranice.

postavke

Da bismo pravilno konfigurirali datoteku robots, moramo točno znati koji dijelovi web stranice trebaju biti indeksirani, a koji ne. U slučaju jednostavne web stranice s jednom stranicom koja koristi html + css, samo trebamo napisati nekoliko osnovnih direktiva, kao što su:

Korisnički agent: *
Dopusti: /
Karta web-mjesta: site.ru/sitemap.xml
Domaćin: www.site.ru

Ovdje smo naveli pravila i vrijednosti za sve tražilice. Ali bolje je dodati zasebne direktive za Google i Yandex. Izgledat će ovako:

Korisnički agent: *
Dopusti: /

Korisnički agent: Yandex
Dopusti: /
Disallow: /politika

Korisnički agent: GoogleBot
Dopusti: /
Zabrani: /oznake/

Karta web-mjesta: site.ru/sitemap.xml
Domaćin: site.ru

Sada će apsolutno sve datoteke na našoj html stranici biti indeksirane. Ako želimo izuzeti neku stranicu ili sliku, onda moramo specificirati relativna veza na ovaj fragment u Disallowu.

Možete koristiti robotske usluge automatskog generiranja datoteka. Ne jamčim da ćete uz njihovu pomoć stvoriti savršeno ispravnu verziju, ali možete je isprobati kao uvod.

Među takvim uslugama su:

Uz njihovu pomoć možete stvoriti robots.txt u automatski način rada. Osobno, snažno ne preporučujem ovu opciju, jer je mnogo lakše to učiniti ručno, prilagođavajući je za svoju platformu.

Kada govorimo o platformama, mislim na sve vrste CMS-a, frameworke, SaaS sustave i još mnogo toga. Zatim ćemo govoriti o tome kako postaviti WordPress i Joomla robot datoteku.

Ali prije toga, istaknimo nekoliko univerzalnih pravila koja vas mogu voditi prilikom izrade i postavljanja robota za gotovo bilo koje mjesto:

Onemogući indeksiranje:

  • administrator stranice;
  • Osobni prostor i stranice za registraciju/prijavu;
  • košarica, podaci iz narudžbenica (za online trgovinu);
  • cgi folder (nalazi se na glavnom računalu);
  • servisni dijelovi;
  • ajax i json skripte;
  • UTM i Openstat oznake;
  • raznih parametara.

Otvori (dopusti):

  • Slike;
  • JS i CSS datoteke;
  • druge elemente koje tražilice moraju uzeti u obzir.

Osim toga, na kraju ne zaboravite naznačiti sitemap (put do mape web mjesta) i host (glavno ogledalo) podatke.

Robots.txt za WordPress

Da bismo kreirali datoteku, moramo ispustiti robots.txt u korijen stranice na isti način. U tom slučaju možete promijeniti njegov sadržaj pomoću istog FTP-a i upravitelja datotekama.

Postoji prikladnija opcija - izradite datoteku pomoću dodataka. Konkretno, Yoast SEO ima takvu funkciju. Uređivanje robota izravno s administratorske ploče mnogo je praktičnije, pa i sam koristim ovu metodu rada s robots.txt.

Kako ćete se odlučiti za izradu ove datoteke ovisi o vama; nama je važnije da razumijemo koje bi direktive trebale biti tamo. Na svojim stranicama koje koriste WordPress koristim ovu opciju:

User-agent: * # pravila za sve robote, osim za Google i Yandex

Onemogući: /cgi-bin # mapa sa skriptama
Onemogući: /? # parametri zahtjeva s početna stranica
Onemogući: /wp- # datoteka samog CSM-a (s prefiksom wp-)
Zabrani: *?s= # \
Onemogući: *&s= # sve vezano uz pretragu
Zabrani: /traži/ # /
Zabrani: /autor/ # arhiva autora
Zabrani: /korisnici/ # i korisnici
Zabrani: */trackback # obavijesti od WP da se netko povezuje s vama
Zabrani: */feed # feed u xml
Zabrani: */rss # i rss
Zabrani: */ugradi # ugrađenih elemenata
Onemogući: /xmlrpc.php #WordPress API
Zabrani: *utm= # UTM oznaka
Zabrani: *openstat= # Openstat oznake
Zabrani: /oznaka/ # oznaka (ako su dostupne)
Dopusti: */uploads # otvorena preuzimanja (slike, itd.)

Korisnički agent: GoogleBot # za Google
Onemogući: /cgi-bin
Onemogući: /?
Onemogući: /wp-
Zabrani: *?s=
Onemogući: *&s=
Zabrani: /traži/
Zabrani: /autor/
Zabrani: /korisnici/
Zabrani: */trackback
Zabrani: */feed
Zabrani: */rss
Zabrani: */ugraditi
Onemogući: /xmlrpc.php
Zabrani: *utm=
Zabrani: *openstat=
Zabrani: /oznaka/
Dopusti: */uploads
Dopusti: /*/*.js # otvorene JS datoteke
Dopusti: /*/*.css # i CSS
Dopusti: /wp-*.png # i slike u png formatu
Dopusti: /wp-*.jpg # \
Dopusti: /wp-*.jpeg # i drugi formati
Dopusti: /wp-*.gif # /
# radi s dodacima

Korisnički agent: Yandex # za Yandex
Onemogući: /cgi-bin
Onemogući: /?
Onemogući: /wp-
Zabrani: *?s=
Onemogući: *&s=
Zabrani: /traži/
Zabrani: /autor/
Zabrani: /korisnici/
Zabrani: */trackback
Zabrani: */feed
Zabrani: */rss
Zabrani: */ugraditi
Onemogući: /xmlrpc.php
Zabrani: /oznaka/
Dopusti: */uploads
Dopusti: /*/*.js
Dopusti: /*/*.css
Dopusti: /wp-*.png
Dopusti: /wp-*.jpg
Dopusti: /wp-*.jpeg
Dopusti: /wp-*.gif
Dopusti: /wp-admin/admin-ajax.php
# čiste UTM oznake
Očistite parametre: openstat # i ne zaboravite na Openstat

Sitemap: # postavite put do mape stranice
Domaćin: https://site.ru # glavno ogledalo

Pažnja! Kada kopirate retke u datoteku, ne zaboravite ukloniti sve komentare (tekst nakon #).

Ova opcija robots.txt najpopularnija je među webmasterima koji koriste WP. Je li idealan? Ne. Možete pokušati nešto dodati ili, naprotiv, nešto ukloniti. Ali imajte na umu da su pogreške česte prilikom optimizacije robotovog tekstualnog mehanizma. O njima ćemo dalje govoriti.

Robots.txt za Joomla

I iako u 2018. malo ljudi koristi Joomlu, vjerujem da se ovaj divni CMS ne može zanemariti. Kada promovirate projekte na Joomli, sigurno ćete morati stvoriti datoteku robots, inače kako želite blokirati nepotrebne elemente od indeksiranja?

Kao iu prethodnom slučaju, datoteku možete izraditi ručno jednostavnim učitavanjem na host ili koristiti modul za te svrhe. U oba slučaja, morat ćete ga ispravno konfigurirati. Ovako će izgledati ispravna opcija za Joomlu:

Korisnički agent: *
Dopusti: /*.css?*$
Dopusti: /*.js?*$
Dopusti: /*.jpg?*$
Dopusti: /*.png?*$
Disallow: /cache/
Zabrani: /*.pdf
Zabrani: /administrator/
Disallow: /instalacija/
Zabrani: /cli/
Zabrani: /knjižnice/
Disallow: /jezik/
Zabrani: /komponente/
Zabrani: /moduli/
Disallow: /uključuje/
Onemogući: /bin/
Zabrani: /komponenta/
Zabrani: /tmp/
Zabrani: /index.php
Onemogući: /dodaci/
Zabrani: /*mailto/

Zabrani: /zapisi/
Zabrani: /component/tags*
Zabrani: /*%
Disallow: /layouts/

Korisnički agent: Yandex
Disallow: /cache/
Zabrani: /*.pdf
Zabrani: /administrator/
Disallow: /instalacija/
Zabrani: /cli/
Zabrani: /knjižnice/
Disallow: /jezik/
Zabrani: /komponente/
Zabrani: /moduli/
Disallow: /uključuje/
Onemogući: /bin/
Zabrani: /komponenta/
Zabrani: /tmp/
Zabrani: /index.php
Onemogući: /dodaci/
Zabrani: /*mailto/

Zabrani: /zapisi/
Zabrani: /component/tags*
Zabrani: /*%
Disallow: /layouts/

Korisnički agent: GoogleBot
Disallow: /cache/
Zabrani: /*.pdf
Zabrani: /administrator/
Disallow: /instalacija/
Zabrani: /cli/
Zabrani: /knjižnice/
Disallow: /jezik/
Zabrani: /komponente/
Zabrani: /moduli/
Disallow: /uključuje/
Onemogući: /bin/
Zabrani: /komponenta/
Zabrani: /tmp/
Zabrani: /index.php
Onemogući: /dodaci/
Zabrani: /*mailto/

Zabrani: /zapisi/
Zabrani: /component/tags*
Zabrani: /*%
Disallow: /layouts/

Domaćin: site.ru # ne zaboravite promijeniti adresu ovdje u svoju
Karta web-mjesta: site.ru/sitemap.xml # i ovdje

U pravilu, to je dovoljno da se spriječi ulazak nepotrebnih datoteka u indeks.

Pogreške tijekom postavljanja

Ljudi vrlo često griješe pri stvaranju i konfiguriranju robotske datoteke. Evo najčešćih:

  • Pravila su navedena samo za korisničkog agenta.
  • Nedostaju Host i Sitemap.
  • Prisutnost http protokola u Host direktivi (samo morate navesti https).
  • Nepoštivanje pravila ugniježđivanja prilikom otvaranja/zatvaranja slika.
  • UTM i Openstat oznake nisu zatvorene.
  • Pisanje uputa za host i mapu web stranice za svakog robota.
  • Površna razrada spisa.

Vrlo je važno ispravno konfigurirati ovu malu datoteku. Ako napravite ozbiljne pogreške, možete izgubiti značajan dio prometa, stoga budite iznimno oprezni pri postavljanju.

Kako provjeriti datoteku?

U ove svrhe bolje je koristiti posebne usluge Yandexa i Googlea, jer su ove tražilice najpopularnije i tražene (najčešće jedine koje se koriste); nema smisla razmatrati tražilice kao što su Bing, Yahoo ili Lutalica.

Prvo, razmotrimo opciju s Yandexom. Idite na Webmaster. Zatim idite na Alati – Analiza robots.txt.

Ovdje možete provjeriti ima li datoteka pogrešaka, kao i provjeriti u stvarnom vremenu koje su stranice otvorene za indeksiranje, a koje nisu. Vrlo povoljno.

Google ima potpuno istu uslugu. Idemo Search Console. Pronađite karticu Skeniranje i odaberite Alat za provjeru datoteke Robots.txt.

Funkcije su ovdje potpuno iste kao u kućnoj službi.

Imajte na umu da mi pokazuje 2 pogreške. To je zbog činjenice da Google ne prepoznaje upute za brisanje parametara koje sam naveo za Yandex:

Clean-Param: utm_source&utm_medium&utm_campaign
Očistite parametre: openstat

Ne biste trebali obraćati pozornost na ovo, jer Google roboti koriste samo GoogleBot pravila.

Zaključak

Datoteka robots.txt vrlo je važna za SEO optimizaciju vaše web stranice. Njegovom postavljanju pristupite sa svom odgovornošću, jer ako se nepravilno provede, sve može propasti.

Imajte na umu sve upute koje sam podijelio u ovom članku i ne zaboravite da ne morate točno kopirati moje varijacije robota. Vrlo je moguće da ćete morati dodatno razumjeti svaku od direktiva, prilagođavajući datoteku kako bi odgovarala vašem specifičnom slučaju.

A ako želite dublje razumjeti robots.txt i izradu web stranica na WordPressu, onda vas pozivam. Ovdje ćete naučiti kako jednostavno možete izraditi web stranicu, ne zaboravite je optimizirati za tražilice.

Prva stvar koju bot za pretraživanje učini kada dođe do vaše stranice jest potražiti i pročitati datoteku robots.txt. Što je ovo datoteka? je skup uputa za tražilicu.

On je tekstualna datoteka, s ekstenzijom txt, koja se nalazi u korijenskom direktoriju stranice. Ovaj skup uputa govori robotu za pretraživanje koje stranice i datoteke na stranici treba indeksirati, a koje ne. Također ukazuje na glavno ogledalo stranice i gdje tražiti kartu stranice.

Za što je to potrebno datoteka robota.txt? Za pravilno indeksiranje vaše stranice. Kako pretraga ne bi sadržavala duplicirane stranice, razne servisne stranice i dokumente. Nakon što ispravno konfigurirate direktive u robotima, spasit ćete svoju stranicu od mnogih problema s indeksiranjem i zrcaljenjem stranice.

Kako stvoriti ispravan robots.txt

Prilično je jednostavno stvoriti robots.txt, hajdemo stvarati Tekstualni dokument u standardnoj Windows bilježnici. U ovoj datoteci pišemo upute za tražilice. Zatim spremite ovu datoteku pod imenom "robots" i tekstualnim nastavkom "txt". Sada se sve može uploadati na hosting, u root folder stranice. Imajte na umu da možete stvoriti samo jedan "robot" dokument za jedno mjesto. Ako ova datoteka nije na web mjestu, tada bot automatski "odlučuje" da se sve može indeksirati.

Budući da postoji samo jedan, sadrži upute za sve tražilice. Štoviše, možete zapisati i zasebne upute za svaki PS i opću za sve njih odjednom. Razdvajanje uputa za različite robote za pretraživanje vrši se putem upute korisničkog agenta. Razgovarajmo više o ovome u nastavku.

Robots.txt direktive

Datoteka “za robote” može sadržavati sljedeće direktive za upravljanje indeksiranjem: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Pogledajmo svaku uputu detaljnije.

Direktiva korisničkog agenta

Direktiva korisničkog agenta— označava za koju će tražilicu biti upute (točnije, za kojeg konkretnog bota). Ako postoji “*”, onda su upute namijenjene svim robotima. Ako je naveden određeni bot, kao što je Googlebot, tada su upute namijenjene samo Googleovom glavnom robotu za indeksiranje. Štoviše, ako postoje upute zasebno za Googlebot i za sve ostale podsustave, tada će Google čitati samo vlastite upute i zanemariti općenite. Yandex bot će učiniti isto. Pogledajmo primjer pisanja direktive.

Korisnički agent: YandexBot - upute samo za glavni Yandex bot za indeksiranje
User-agent: Yandex - upute za sve Yandex botove
User-agent: * - upute za sve botove

Disallow i Allow direktive

Disallow i Allow direktive— dati upute o tome što indeksirati, a što ne. Disallow daje naredbu da se ne indeksira stranica ili cijeli odjeljak stranice. Naprotiv, Allow označava što treba indeksirati.

Disallow: / - zabranjuje indeksiranje cijele stranice
Disallow: /papka/ - zabranjuje indeksiranje cjelokupnog sadržaja mape
Disallow: /files.php - zabranjuje indeksiranje datoteke files.php

Dopusti: /cgi-bin – omogućuje indeksiranje cgi-bin stranica

Moguće je i često jednostavno potrebno koristiti posebne znakove u naredbama Disallow i Allow. Oni su potrebni za specificiranje regularnih izraza.

Poseban znak * - zamjenjuje bilo koji niz znakova. Po zadanom se dodjeljuje kraju svakog pravila. Čak i ako ga niste registrirali, PS će ga dodijeliti sam. Primjer upotrebe:

Disallow: /cgi-bin/*.aspx – zabranjuje indeksiranje svih datoteka s nastavkom .aspx
Disallow: /*foto - zabranjuje indeksiranje datoteka i mapa koje sadrže riječ foto

Poseban znak $ poništava učinak posebnog znaka “*” na kraju pravila. Na primjer:

Disallow: /example$ - zabranjuje indeksiranje '/example', ali ne zabranjuje '/example.html'

A ako ga napišete bez posebnog simbola $, tada će instrukcija raditi drugačije:

Disallow: /example - onemogućuje i '/example' i '/example.html'

Sitemap Direktiva

Sitemap Direktiva— ima za cilj da pokaže robotu tražilice gdje se karta web stranice nalazi na hostingu. Format karte web stranice trebao bi biti sitemaps.xml. Mapa stranice je potrebna za brže i potpunije indeksiranje stranice. Štoviše, sitemap nije nužno jedna datoteka, može ih biti nekoliko. Format izravne poruke:

Sitemap: http://site/sitemaps1.xml
Karta web-mjesta: http://site/sitemaps2.xml

Direktiva domaćina

Direktiva domaćina- označava robotu glavno ogledalo stranice. Što god da je u indeksu ogledala stranice, uvijek morate navesti ovu direktivu. Ako to ne navedete, robot Yandex će indeksirati najmanje dvije verzije web stranice sa i bez www. Sve dok ih zrcalni robot ne zalijepi. Primjer unosa:

Domaćin: www.site
Domaćin: web stranica

U prvom slučaju, robot će indeksirati verziju s www, u drugom slučaju, bez. Dopušteno vam je navesti samo jednu direktivu Host u datoteci robots.txt. Ako ih unesete nekoliko, bot će obraditi i uzeti u obzir samo prvi.

Važeća direktiva hosta mora imati sljedeće podatke:
— navedite protokol veze (HTTP ili HTTPS);
- ispravno napisano Naziv domene(ne možete unijeti IP adresu);
— broj porta, ako je potrebno (na primjer, Host: site.com:8080).

Neispravno napravljene direktive jednostavno će biti zanemarene.

Direktiva za odgodu indeksiranja

Direktiva za odgodu indeksiranja omogućuje smanjenje opterećenja poslužitelja. Potreban je u slučaju da vaša stranica počne padati pod napadima raznih robota. Direktiva o kašnjenju indeksiranja govori botu za pretraživanje vrijeme čekanja između završetka preuzimanja jedne stranice i početka preuzimanja druge stranice na web mjestu. Direktiva mora doći odmah nakon unosa direktive "Disallow" i/ili "Allow". Yandex robot za pretraživanje može čitati frakcijske vrijednosti. Na primjer: 1,5 (jedna i pol sekunda).

Clean-param direktiva

Clean-param direktiva potrebno za stranice čije stranice sadrže dinamičke parametre. Govorimo o onima koji ne utječu na sadržaj stranica. Ovo su razne servisne informacije: identifikatori sesije, korisnici, refereri itd. Dakle, kako ne bi bilo duplikata ovih stranica, koristi se ova direktiva. Reći će PS-u da ne učitava ponovno dobivene informacije. Smanjit će se opterećenje poslužitelja i vrijeme potrebno robotu da indeksira stranicu.

Clean-param: s /forum/showthread.php

Ovaj unos govori PS-u da će se parametar s smatrati beznačajnim za sve URL-ove koji počinju s /forum/showthread.php. Maksimalna duljina unosa je 500 znakova.

Sredili smo direktive, prijeđimo na postavljanje naše robotske datoteke.

Postavljanje robots.txt

Prijeđimo izravno na postavljanje datoteke robots.txt. Mora sadržavati najmanje dva unosa:

Korisnički agent:— označava tražilicu za koju će biti dolje navedene upute.
Zabrani:— određuje koji dio stranice ne treba indeksirati. Može blokirati indeksiranje jedne stranice web-mjesta i cijelih odjeljaka.

Štoviše, možete naznačiti da su te direktive namijenjene svim tražilicama ili samo jednoj. To je naznačeno u direktivi User-agent. Ako želite da svi botovi čitaju upute, stavite zvjezdicu

Ako želite napisati upute za određenog robota, morate navesti njegovo ime.

Korisnički agent: YandexBot

Pojednostavljeni primjer ispravno sastavljene robotske datoteke bio bi ovakav:

Korisnički agent: *
Onemogući: /files.php
Zabrani: /odjeljak/
Domaćin: web stranica

Gdje, * označava da su upute namijenjene za sve PS;
Onemogući: /files.php– zabranjuje indeksiranje datoteke file.php;
Zabrani: /foto/— zabranjuje indeksiranje cijele sekcije "foto" sa svim priloženim datotekama;
Domaćin: web stranica— govori robotima koje ogledalo treba indeksirati.

Ako na svojoj web-lokaciji nemate stranice koje je potrebno zatvoriti zbog indeksiranja, vaša bi datoteka robots.txt trebala izgledati ovako:

Korisnički agent: *
Zabrani:
Domaćin: web stranica

Robots.txt za Yandex (Yandex)

Kako biste označili da su ove upute namijenjene Yandex tražilici, morate navesti u User-agent: Yandex direktiva. Štoviše, ako unesemo "Yandex", tada će svi Yandex roboti indeksirati stranicu, a ako navedemo "YandexBot", to će biti naredba samo za glavnog robota za indeksiranje.

Također je potrebno navesti direktivu "Host", gdje označiti glavno ogledalo stranice. Kao što sam gore napisao, ovo je učinjeno kako bi se spriječile duplicirane stranice. Vaša ispravna datoteka robots.txt za Yandex bit će ovakva.

Robots.txt je tekstualna datoteka koja sadrži parametre indeksiranja stranice za pretraživač roboti.

Preporuke o sadržaju datoteke

Yandex podržava sljedeće direktive:

Direktiva Što to radi
Korisnički agent *
Zabraniti
Sitemap
Clean-param
Dopusti
Odgoda puzanja
Direktiva Što to radi
Korisnički agent * Označava robota na kojeg se primjenjuju pravila navedena u robots.txt.
Zabraniti Zabranjuje indeksiranje dijelova stranice ili pojedinačnih stranica.
Sitemap Određuje stazu do datoteke Sitemap koja je objavljena na web mjestu.
Clean-param Pokazuje robotu da URL stranice sadrži parametre (poput UTM oznaka) koje treba zanemariti prilikom indeksiranja.
Dopusti Omogućuje indeksiranje dijelova stranice ili pojedinačnih stranica.
Odgoda puzanja Određuje minimalni interval (u sekundama) za čekanje robota za pretraživanje nakon učitavanja jedne stranice prije nego što počne učitavati drugu.

* Obavezna direktiva.

Najčešće ćete trebati naredbe Disallow, Sitemap i Clean-param. Na primjer:

User-agent: * # odredite robote za koje su postavljene direktive Disallow: /bin/ # onemogućuje poveznice iz košarice. Disallow: /search/ # onemogućuje veze stranice za pretraživanje ugrađene na web mjesto Disallow: /admin/ # onemogućuje veze s administratorske ploče Sitemap: http://example.com/sitemap # navedite za robota datoteku sitemapa stranice Clean-param: ref /some_dir/get_book.pl

Roboti iz drugih tražilica i usluga mogu tumačiti direktive na drugačiji način. Datoteka robots.txt koju robot uzima u obzir, ona se mora nalaziti u korijenskom direktoriju stranice i odgovarati HTTP 200 kodom. Robot za indeksiranje ne podržava korištenje datoteka koje se nalaze na drugim stranicama.

Pomoću alata možete provjeriti odgovor poslužitelja i dostupnost datoteke robots.txt robotu.

Ako vaša datoteka robots.txt preusmjerava na drugu datoteku robots.txt (na primjer, kada premještate web mjesto), dodajte ciljano mjesto preusmjeravanja u Yandex.Webmaster i potvrdite prava za upravljanje ovim mjestom.

Robots.txt je tekstualna datoteka koja sadrži parametre indeksiranja stranice za robote tražilice.

Yandex podržava sljedeće direktive:

Direktiva Što on radi
Korisnički agent *
Zabraniti
Sitemap
Clean-param
Dopusti
Odgoda puzanja
Direktiva Što on radi
Korisnički agent * Označava robota za kojeg se primjenjuju pravila navedena u robots.txt.
Zabraniti Zabranjuje indeksiranje odjeljaka ili pojedinačnih stranica stranice.
Sitemap Određuje stazu do datoteke Sitemap koja se nalazi na web mjestu.
Clean-param Označava robotu da URL stranice sadrži parametre (na primjer, UTM oznake) koje ne treba uzeti u obzir prilikom indeksiranja.
Dopusti Omogućuje indeksiranje odjeljaka ili pojedinačnih stranica stranice.
Odgoda puzanja

Postavlja minimalno vremensko razdoblje (u sekundama) za robota između završetka učitavanja jedne stranice i početka učitavanja sljedeće.

* Obavezna direktiva.

Najčešće upute koje vam mogu trebati su Disallow, Sitemap i Clean-param. Na primjer:

User-agent: * #navedite za koje su direktive robota instalirane\nDisallow: /bin/ # zabranjuje poveznice iz \"Košarice\".\nDisallow: /search/ # zabranjuje poveznice na stranice ugrađene u tražilicu\nDisallow: /admin / # zabranjuje poveznice s administratorske ploče\nSitemap: http://example.com/sitemap # usmjerite robota na datoteku sitemapa za web mjesto\nClean-param: ref /some_dir/get_book.pl

Roboti drugih tražilica i servisa mogu drugačije tumačiti direktive.

Bilješka. Robot uzima u obzir velika i mala slova kada piše podnizove (naziv ili put do datoteke, naziv robota) i ne uzima u obzir velika i mala slova u nazivima direktiva.

Korištenje ćirilice

Zabranjena je upotreba ćirilice u datoteci robots.txt i HTTP zaglavljima poslužitelja.

Datoteka robots.txt jedna je od najvažnijih pri optimizaciji bilo koje web stranice. Njegov nedostatak može dovesti do velikog opterećenja stranice od robota za pretraživanje i sporog indeksiranja i ponovnog indeksiranja, i netočna postavka na činjenicu da će stranica potpuno nestati iz pretraživanja ili jednostavno neće biti indeksirana. Posljedično, neće se pretraživati ​​u Yandexu, Googleu i drugim tražilicama. Pogledajmo sve nijanse ispravne postavke roboti.txt.

Prvo, kratki video koji će vam dati opću ideju o tome što je datoteka robots.txt.

Kako robots.txt utječe na indeksiranje stranice?

Roboti za pretraživanje će indeksirati vašu stranicu bez obzira na prisutnost datoteke robots.txt. Ako takva datoteka postoji, tada se roboti mogu voditi prema pravilima koja su zapisana u ovoj datoteci. U isto vrijeme, neki roboti mogu ignorirati određena pravila ili neka pravila mogu biti specifična samo za neke botove. Konkretno, GoogleBot ne koristi direktive Host i Crawl-Delay, YandexNews je nedavno počeo ignorirati direktivu Crawl-Delay, a YandexDirect i YandexVideoParser ignoriraju općenitije direktive u robotima (ali se vode onima koje su specificirane posebno za njih).

Više o izuzecima:
Yandex iznimke
Standard iznimke robota (Wikipedia)

Maksimalno opterećenje stranice stvaraju roboti koji preuzimaju sadržaj s vaše stranice. Stoga, navodeći što točno indeksirati, a što zanemariti, kao i u kojim vremenskim intervalima preuzimati, možete, s jedne strane, značajno smanjiti opterećenje web stranice od robota, a s druge strane, ubrzati proces preuzimanja zabranom indeksiranja nepotrebnih stranica.

Takve nepotrebne stranice uključuju ajax, json skripte odgovorne za pop-up obrasce, bannere, captcha izlaz itd., obrasce za narudžbe i košaricu sa svim koracima kupnje, funkciju pretraživanja, osobni račun, administrativnu ploču.

Za većinu robota također je preporučljivo onemogućiti indeksiranje svih JS i CSS. Ali za GoogleBot i Yandex, takve datoteke moraju biti ostavljene za indeksiranje, budući da ih tražilice koriste za analizu pogodnosti stranice i njezino rangiranje (Google proof, Yandex proof).

Robots.txt direktive

Direktive su pravila za robote. Postoji W3C specifikacija od 30. siječnja 1994. i prošireni standard iz 1996. godine. Međutim, ne podržavaju sve tražilice i roboti određene direktive. U tom smislu, bit će nam korisnije znati ne standard, već kako se glavni roboti vode određenim direktivama.

Pogledajmo ih redom.

Korisnički agent

Ovo je najvažnija direktiva koja određuje koje robote pravila slijede.

Za sve robote:
Korisnički agent: *

Za određenog bota:
Korisnički agent: GoogleBot

Napominjemo da robots.txt ne razlikuje velika i mala slova. Oni. Korisnički agent za Google može se jednostavno napisati na sljedeći način:
korisnički agent: googlebot

Ispod je tablica glavnih korisničkih agenata različitih tražilica.

Bot Funkcija
Google
Googlebot Googleov glavni robot za indeksiranje
Googlebot-Novosti Google vijesti
Googlebotova slika Google slike
Googlebot-Video video
Mediapartners-Google
Medijski partneri Google AdSense, Google Mobile AdSense
AdsBot-Google provjera kvalitete odredišne ​​stranice
AdsBot-Google-Mobile-Apps Googlebot za aplikacije
Yandex
YandexBot Yandexov glavni robot za indeksiranje
YandexImages Yandex.Slike
YandexVideo Yandex.Video
YandexMedia multimedijski podaci
YandexBlogovi robot za pretraživanje blogova
YandexAddurl robot koji pristupa stranici kada je dodaje putem obrasca “Dodaj URL”.
YandexFavicons robot koji indeksira ikone web stranica (favicons)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
YandexKatalog Yandex.Katalog
YandexNews Yandex.Vijesti
YandexImageResizer mobilni uslužni robot
Bing
Bingbot Bingov glavni robot za indeksiranje
Yahoo!
Srkati glavni robot za indeksiranje Yahoo!
Mail.Ru
Mail.Ru glavni robot za indeksiranje Mail.Ru
Lutalica
StackRambler Prethodno glavni robot za indeksiranje Rambler. Međutim, od 23. lipnja 2011. Rambler prestaje podržavati vlastitu tražilicu i sada koristi tehnologiju Yandex na svojim uslugama. Više nije relevantno.

Onemogući i Dopusti

Disallow blokira indeksiranje stranica i odjeljaka web mjesta.
Allow prisiljava stranice i dijelove web-mjesta na indeksiranje.

Ali nije to tako jednostavno.

Prvo morate znati dodatne operatore i razumjeti kako se koriste - to su *, $ i #.

* je bilo koji broj znakova, uključujući njihov nedostatak. U ovom slučaju ne morate stavljati zvjezdicu na kraj retka; pretpostavlja se da je tamo standardno.
$ - označava da znak prije njega treba biti posljednji.
# je komentar; robot ne uzima u obzir sve što slijedi u retku.

Primjeri korištenja:

Zabrani: *?s=
Zabrani: /kategorija/$

Drugo, morate razumjeti kako se izvršavaju ugniježđena pravila.
Upamtite da redoslijed kojim su upute napisane nije važan. Nasljeđivanje pravila o tome što otvoriti ili zatvoriti iz indeksiranja određuje koji su direktoriji navedeni. Pogledajmo to na primjeru.

Dopusti: *.css
Zabrani: /predložak/

http://site.ru/template/ - zatvoreno od indeksiranja
http://site.ru/template/style.css - zatvoreno od indeksiranja
http://site.ru/style.css - otvoren za indeksiranje
http://site.ru/theme/style.css - otvoren za indeksiranje

Ako želite da sve .css datoteke budu otvorene za indeksiranje, to ćete morati dodatno registrirati za svaku od zatvorenih mapa. U našem slučaju:

Dopusti: *.css
Dopusti: /template/*.css
Zabrani: /predložak/

Opet, redoslijed direktiva nije važan.

Sitemap

Direktiva za određivanje staze do XML datoteke Sitemapa. URL je napisan na isti način kao u adresnoj traci.

Na primjer,

Karta web-mjesta: http://site.ru/sitemap.xml

Direktiva Sitemap navedena je bilo gdje u datoteci robots.txt bez povezivanja s određenim korisničkim agentom. Možete navesti više pravila Sitemapa.

Domaćin

Uputa za određivanje glavnog ogledala stranice (u većini slučajeva: s www ili bez www). Imajte na umu da je glavno ogledalo navedeno BEZ http://, ali SA https://. Također, ako je potrebno, luka je naznačena.
Direktivu podržavaju samo Yandex i Mail.Ru botovi. Drugi roboti, posebice GoogleBot, neće uzeti u obzir naredbu. Host se registrira samo jednom!

Primjer 1:
Domaćin: site.ru

Primjer 2:
Domaćin: https://site.ru

Odgoda puzanja

Uputa za postavljanje vremenskog intervala između robotskih preuzimanja web stranica. Podržavaju Yandex roboti, Mail.Ru, Bing, Yahoo. Vrijednost se može postaviti u cijelim brojevima ili razlomcima (razdjelnik je točka), vrijeme u sekundama.

Primjer 1:
Odgoda indeksiranja: 3

Primjer 2:
Odgoda indeksiranja: 0,5

Ako web mjesto ima malo opterećenje, nema potrebe postavljati takvo pravilo. Međutim, ako indeksiranje stranica od strane robota dovede do toga da stranica premaši ograničenja ili doživi značajna opterećenja do točke ispada poslužitelja, tada će ova direktiva pomoći u smanjenju opterećenja.

Što je vrijednost veća, to manje stranica robot će preuzeti u jednoj sesiji. Optimalna vrijednost se određuje pojedinačno za svako mjesto. Bolje je započeti s ne baš velikim vrijednostima - 0,1, 0,2, 0,5 - i postupno ih povećavati. Za robote tražilice koji su manje važni za rezultate promocije, kao što su Mail.Ru, Bing i Yahoo, u početku možete postaviti veće vrijednosti nego za Yandex robote.

Clean-param

Ovo pravilo govori alatu za indeksiranje da URL-ovi s navedenim parametrima ne bi trebali biti indeksirani. Pravilo navodi dva argumenta: parametar i URL odjeljka. Direktivu podržava Yandex.

Clean-param: autor_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Druge opcije

U proširenoj specifikaciji robots.txt također možete pronaći parametre Request-rate i Visit-time. Međutim, jesu ovaj trenutak ne podržavaju glavne tražilice.

Značenje direktiva:
Stopa zahtjeva: 1/5 — učitajte ne više od jedne stranice u pet sekundi
Vrijeme posjeta: 0600-0845 - učitavanje stranica samo između 6 ujutro i 8:45 ujutro GMT.

Zatvaranje robots.txt

Ako trebate konfigurirati svoje web mjesto tako da ga roboti za pretraživanje NE indeksiraju, trebate navesti sljedeće upute:

Korisnički agent: *
Zabrani: /

Provjerite jesu li te upute napisane na testnim mjestima vaše stranice.

Ispravna postavka robots.txt

Za Rusiju i zemlje ZND-a, gdje je Yandexov udio značajan, treba propisati direktive za sve robote, a posebno za Yandex i Google.

Da biste pravilno konfigurirali robots.txt, koristite sljedeći algoritam:

  1. Zatvorite administrativnu ploču web stranice od indeksiranja
  2. Zatvorite svoj osobni račun, autorizaciju i registraciju iz indeksiranja
  3. Blokirajte svoju košaricu, obrasce za narudžbe, dostavu i podatke o narudžbi od indeksiranja
  4. Zatvori ajax i json skripte iz indeksiranja
  5. Zatvorite cgi mapu od indeksiranja
  6. Blokiraj dodatke, teme, js, css iz indeksiranja za sve robote osim Yandexa i Googlea
  7. Onemogući indeksiranje funkcije pretraživanja
  8. Zatvorite odjeljke usluge indeksiranja koji ne daju nikakvu vrijednost za web mjesto u pretraživanju (pogreška 404, popis autora)
  9. Blokirajte tehničke duplicirane stranice od indeksiranja, kao i stranice na kojima je sav sadržaj u ovom ili onom obliku dupliciran s drugih stranica (kalendari, arhive, RSS)
  10. Blokiraj stranice s parametrima filtra, sortiranja, usporedbe od indeksiranja
  11. Blokirajte indeksiranje stranica s UTM oznakama i parametrima sesije
  12. Provjerite što indeksiraju Yandex i Google pomoću parametra "site:" (upišite "site:site.ru" u traku za pretraživanje). Ako pretraživanje sadrži stranice koje također treba zatvoriti od indeksiranja, dodajte ih u robots.txt
  13. Navedite Sitemap i Host
  14. Ako je potrebno, unesite Crawl-Delay i Clean-Param
  15. Provjerite ispravnost robots.txt pomoću alata Google i Yandex (opisano u nastavku)
  16. Nakon 2 tjedna ponovno provjerite je li Rezultati pretraživanja nove stranice koje ne bi trebale biti indeksirane. Ako je potrebno, ponovite gornje korake.

Primjer robots.txt

# Primjer datoteke robots.txt za postavljanje hipotetske stranice https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow : *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Disallow: *sort= Disallow: *view= Disallow: *utm= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/ *.jpg Allow: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Dopusti: /plugins/*.css Dopusti: /plugins/*.js Dopusti: /plugins/*.png Dopusti: /plugins/*.jpg Dopusti: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Kašnjenje: 0,5 Karta web-mjesta: https://site.ru/sitemap.xml Host: https://site.ru

Kako dodati i gdje se nalazi robots.txt

Nakon što ste izradili datoteku robots.txt, morate je postaviti na svoju web stranicu na site.ru/robots.txt - tj. u korijenskom direktoriju. Robot za pretraživanje uvijek pristupa datoteci na URL /robots.txt

Kako provjeriti robots.txt

Robots.txt se provjerava pomoću sljedećih poveznica:

  • U Yandex.Webmasteru - na kartici Alati>Analiza Robots.txt
  • U Google Search Console- na kartici Skeniranje>Alat za pregled datoteke Robots.txt

Tipične greške u robots.txt

Na kraju članka dat ću nekoliko tipične greške datoteka robots.txt

  • robots.txt nedostaje
  • u robots.txt stranica je zatvorena za indeksiranje (Disallow: /)
  • datoteka sadrži samo najosnovnije upute, nema detaljne razrade datoteke
  • u datoteci, stranice s UTM oznakama i identifikatorima sesije nisu blokirane za indeksiranje
  • datoteka sadrži samo direktive
    Dopusti: *.css
    Dopusti: *.js
    Dopusti: *.png
    Dopusti: *.jpg
    Dopusti: *.gif
    dok su datoteke css, js, png, jpg, gif zatvorene drugim direktivama u nizu direktorija
  • Host direktiva navedena je nekoliko puta
  • HTTP protokol nije naveden u hostu
  • staza do Sitemapa je netočna ili je naveden pogrešan protokol ili zrcaljenje stranice

p.s.

P.S.2

Koristan video s Yandexa (Pažnja! Neke preporuke prikladne su samo za Yandex).



reci prijateljima
Pročitajte također