Indholdsfortegnelse
Det Skrabning af skærmen eller skærmskrabning, giver os mulighed for at udtrække oplysninger fra en webside ved at downloade siden og efterfølgende behandle den med et program; Dette er meget nyttigt, især når vi har brug for opdaterede oplysninger fra et websted, der ikke har nogen API tilgængelig eller noget Webservice.At udføre en Skrabning af skærmen, vi er simpelthen nødt til at downloade indholdet og være i stand til at manipulere det, så vi kan udtrække det, der interesserer os, til dette kan vi bruge forskellige teknikker såsom brug af regulære udtryk eller måske hjælpe os selv med andre biblioteker som f.eks. Ryddelig.
Hvad er Tidy?
For at kunne læse a HTML Vi må stole på dets struktur, fordi fordi vi ikke ved præcis, hvilket indhold den har, ved vi i det mindste, at hvis vi søger efter strukturer HTML noget vi kan få, dog ikke altid HTML den er velformet, enten på grund af en udeladelsesfejl, eller fordi programmøren ved, at nogle browsere har en tendens til at fortolke HTML, selvom der er nogle fejl.
På dette tidspunkt spiller ind Ryddelig, som ikke er mere end et værktøj, der giver os mulighed for at reparere misdannet HTML, er det meget konfigurerbart og giver os mulighed for at tilpasse den måde, det skal fortolke de rettelser, det kan foretage, på denne måde ved vi med sikkerhed, hvilken type dokument vil resultere i sidste ende.
Lad os først se et billede af en kode HTML Med mange fejl kan denne kode fortolkes af nogle browsere, men den er ikke en korrekt kode i dens dannelse:
Som vi kan se, har hver linje praktisk talt en fejl, den mest almindelige er ikke-lukning af tags, så ser vi tags, der lukker det forkerte sted osv.
Så bruger vi Ryddelig og lad os se koden allerede korrigeret, der vil vi indse, hvor vigtigt dette bibliotek er og al den hjælp, det kan give os:
På billedet ser vi, hvordan det blev korrigeret af Ryddelig, skal vi bemærke, at selvom Tidy er et stort bibliotek, kan det sandsynligvis ikke løse alle fejlene i HTMLDet hjælper os dog meget, når det kommer til at bygge vores velformede HTML.
Få ryddet op
Der er flere måder at få Tidy på via den officielle side http: / /tidy.sf.net. vi kan skaffe biblioteket, men der er ingen måde i den kilde at integrere det med Python så vi må ty til en alternativ kilde, for dette har vi to muligheder: uTidy tilgængelig på http: / /utidylib.berlios.de og mxTidy tilgængelig på http://egenix.com/files/python/mxTidy.html, uTidy ser ud til at være den mest opdaterede af de to, men mxTidy er lidt lettere at installere, det er op til alle at se hvilken at bruge.
Lad os se et eksempel på, hvordan du bruger Ryddelig Når vi har det installeret, i den følgende kode, hvad vi vil gøre, er at åbne en HTML med fejl og læse den ved hjælp af Tidy, så viser vi oplysningerne på skærmen.
fra underprocesimport Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close () print tidy.stdout.read ()
Som vi kan se, er det ganske enkelt at bruge RyddeligNår vi har tilstrækkelig tillid til det ved at kende bibliotekets adfærd godt, kan vi opnå meget interessante ting.Kan du lide og hjælpe denne vejledning?Du kan belønne forfatteren ved at trykke på denne knap for at give ham et positivt punkt