Indholdsfortegnelse
Når søgemaskiner ankommer til et websted, begynder de at lede efter robots.txt -filen for at læse den. Det vil afhænge af dets indhold, så søgemaskinens edderkop fortsætter inden for webstedet eller går til en anden.Filen robots.txt indeholder en liste over sider, der må indekseres af søgemaskinen, hvilket igen begrænser selektiv adgang til bestemte søgemaskiner.
Dette er en ASCII -fil, der skal være placeret ved roden af webstedet. Kommandoerne den kan indeholde er:
Agentbruger: Det bruges til at angive, hvilken robot der vil følge de ordrer, der præsenteres.
Tillader ikke: Det bruges til at identificere, hvilke sider der vil blive ekskluderet under analyseprocessen af søgemaskinen. Det er vigtigt, at hver side, der skal udelukkes, skal have separate linjer og skal også begynde med / -symbolet. Med denne symbologi bliver det specificeret; til "alle sider på webstedet".
Det er ekstremt vigtigt, at robots.txt -filen ikke har tomme linjer.
Nogle eksempler er vist nedenfor;
- Når du vil ekskludere alle sider; Brugeragenten er: Tillad ikke: /.
- Hvis målet ikke er at udelukke nogen side, må robotos.txt -filen ikke eksistere på webstedet, det vil sige, at alle sider på webstedet vil blive besøgt ens.
- Når en bestemt robot er udelukket, vil det være:
- Agentbruger: Robotnavn Tillad ikke: / Agentbruger: * Tillad ikke:
- Når en side er udelukket; Agentbruger: * Tillad ikke: /directory/path/page.html
- Når alle sider i et bibliotek er ekskluderet fra webstedet med deres tilhørende undermapper, vil det være; Agentbruger: * Tillad ikke: / directory /
En anden funktion er at forhindre indeksering af dobbelt indhold, der findes på webstedet, for ikke at blive straffet.
Andre overvejelser, der skal tages i betragtning, er, at nogle robotter kan ignorere instruktionerne i denne fil, og det skal også være klart, at filen er offentlig, da alle, der skriver www.example.com/robots.txt, kan have adgang til den.
Nu kan spørgsmålet være; Hvordan genereres robots.txt -filen?
Det er faktisk ret simpelt, da det er et tekstdokument med navnet "robots.txt" og derefter uploader det til roden af sidens domæne, det er der, søgemaskinerne vil gå for at lede efter det, der skal læses.
En grundlæggende robots.txt -fil kan være:
Bruger-agent: *
Disallow: / private /
Der genereres instruktioner for at nægte adgang til et bibliotek, der vil være "privat" for alle søgemaskiner.
Kommandoen bestemmer, at den er adresseret til alle robotter (User-agent: *), hvilket angiver, at biblioteket ikke er tilladt (Disallow: / private /).
Parameteren, der bruges til Googles søgemaskine, er; Bruger-agent: Googlebot
Som tidligere nævnt bruges dens anvendelse i SEO til at begrænse robotternes adgang til at kopiere indhold.Kan du lide og hjælpe denne vejledning?Du kan belønne forfatteren ved at trykke på denne knap for at give ham et positivt punkt