Posodobljeno 11. 04. 2024
Robots.txt so datoteke, ki jih ustvarjalci strani uporabljajo za posredovanje navodil spletnim pajkom. Imenujemo jih tudi protokol za izključevanje spletnih pajkov (ang. The Robots Exclusion Protocol).
Kazalo
Uporaba Robots.txt
Služijo kot datoteke, kamor zabeležimo, katere mape in direktorije naj pajki ignorirajo v procesu indeksiranja. Če teh datotek ni v sklopu spletne strani, pajki sklepajo, da zanje ni nobenih posebnih navodil.
Navodila v obliki besedila za pajke se ustvari na osnovni domeni in končnico /robots.txt. Poglejte si primer Spletnikove robots.txt datoteke.
Kako deluje Robots.txt?
Ko želi iskalni pajek obiskati spletno stran, vzemimo https://spletnik.si, najprej preveri povezavo spletnik.si/robots.txt, kjer najde:
User-agent: * * pomeni, da se ta navodila nanašajo na vse pajke
Disallow: brez oznake pomeni popoln dostop do vseh map in direktorijev
Pomembno:
– pajki lahko ignorirajo vaše datoteke /robots.txt –iskalni pajki, ki pregledujejo splet iz varnostnih razlogov,
– /robots.txt so javno vidne datoteke, zato lahko vsak vidi, katere sekcije strani želite prikriti pajkom; zato ne uporabljajte teh datotek za skrivanje informacij.
Kam shranimo Robots.txt?
Ko pajki iščejo robots.txt datoteke, izbrišejo vse znake do prve poševnice (če ta obstaja znotraj URL-ja) in dodajo robots.txt. To izgleda nekako tako: www.primer.si/trgovina/copati → Pajki bodo odstranili trgovine/copati, kar privede do takšnega URL naslova: www.primer.si/robots.txt. Torej te datoteke morate umestiti na server na takšno mesto, da bo to delovalo. Običajno je to tam, kjer dodate tudi domačo stran, je pa seveda odvisno od serverja.
Primeri zapisov
Znotraj teh datotek za iskalne robote lahko komunicirate različno:
Preprečiti vsem pajkom celoten dostop:
User-agent: *
Disallow: /
Omogočiti vsem pajkom celoten dostop:
User-agent: *
Disallow:
(ali preprosto pustite prazno datoteko ali robots.txt ne uporabite)
Izključiti vsem pajkom dostop do delov na serverju:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Onemogočiti dostop določenemu pajku:
User-agent: BadBot
Disallow: /
Omogočiti le enemu pajku:
User-agent: Google
Disallow: /
Robots.txt in SEO
Veliko lastnikov in upravljalcev spletnih strani ne samo da ne pozna robots.txt, ampak se ne zaveda njihove pomembne vloge za proces SEO optimizacije. Kot ste se iz članka spoznali so robots.txt navodila, s katerimi omogočamo ali omejujemo dostop Googlovim (in ostalim) spletnim robotkom do določenih delov naše spletne strani.
V kolikor niste pazljivi lahko zelo hitro napišete napačno “komando” s katero onemogočite indeksiranje morda zelo pomembnega dela vašega spletnega mesta. Posledično ne glede na to, kako dobra bo vaša vsebina na tistem delu spletna, Google ne bo mogel priti do njega ravno zaradi navodil v Robots.txt datoteki.
Včasih pa seveda želimo z namenom preprečiti Googlu, da obišče določene naše podstrani in najboljše orodje za to je ravno robots.txt datoteka.
Zaključek
Govorili smo že, kako pomembna je tekstovna vsebina na spletni strani za SEO optimizacijo internetnih strani. Robots.txt so še en dokaz, kako pomembno je z besedilom komunicirati s pajki. Le na tak način bomo lahko pajkom postavili prave meje, da ne bodo po svoje hiteli po naših straneh.
Se ne znajdete sami v komunikaciji s pajki? Pišite nam in z veseljem vam bomo pomagali.
Uspešno,
Spletni
- 9 pogostih napak pri Google oglaševanju - 21. 02. 2024
- 7 ključnih orodij za analizo spletnega nastopa v letu 2024 - 12. 12. 2023
- Za koga SEO ni primeren? - 23. 08. 2023