Robots.txt eller robots eksklusion standard og søgemaskine crawling

Indholdsfortegnelse
Hej alle sammen, jeg starter med denne vejledning om robots.txt, jeg håber, at du kan lide den

Tillad alle robotter at besøge alle filer, der er gemt i rodmappen på internettet:

 User-agent: * Disallow: 

Forhindrer adgang til alle robotter og alle filer, der er gemt i rodmappen:
 User-agent: * Disallow: / 

Tillad kun én robot at få adgang. I dette eksempel er det kun Google, der kan crawle
 User-agent: googlebot Disallow: User-agent: * Disallow: / 

De mest populære robotter har et navn, der skal bruges i user-agent
googlebot => til Google
msnbot => MSN Søgning
yahoo-slurp => Yahoo!
scrubby => Skrub internettet
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Der er også de mere specifikke robotter som dem i billeder
googlebot-image => Google Image
googlebot-mobile => Google Mobile
Et andet eksempel, så alle undermapper, der indeholder jokertegnet (/), skal blokeres, kun disse undtagen alle andre filer og mapper, der ikke indeholder et jokertegn, er system- eller backend -biblioteker nominelt blokeret:
 User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador / 

Forhindrer, at en bestemt fil spores
 Bruger-agent: * Disallow: /page.htm 

Dette bruges meget, når vi vil fjerne en side, der giver en 404 -fejl eller fjerne en side fra søgeresultaterne, og dermed forhindre den i at blive gennemgået.
Administrer frekvensen af ​​crawlerobotter
Fra Google analytics og fra webmastertools du kan se statistikken, du kan også se, at nogle robotter nogle gange tager lang tid at gennemgå vores websted og indsende anmodninger til serveren, robotterne bruger båndbredde og ressourcer, som om de bare var endnu en besøgende.
Der er en måde, hvorpå robotter ikke kommer ud af kontrol, kan vi fortælle hver enkelt
User-agent: googlebot Crawl-delay: 30
Med dette informerer vi Google -robotten om at vente 30 sekunder mellem hver crawl. Vær forsigtig, fordi Crawl-delay muligvis ikke understøttes af alle søgemaskiner, Bing og Google gør.
Det officielle websted for robots.txt Det er http://www.robotstxt.org/, hvor vi finder navnene på alle robotterne, specifikationer for koden. Her afsløres det, at robotter tjener til at standardisere dem, der skal spores og bruges på andre platforme til at spore og validere html, validere links, indeksere oplysninger, opdatere indhold i søgemaskiner, beskytte websteder.Kan du lide og hjælpe denne vejledning?Du kan belønne forfatteren ved at trykke på denne knap for at give ham et positivt punkt
wave wave wave wave wave