Indholdsfortegnelse
Ved arbejde med parser i Python det anbefales, at hvis vi arbejder med dokumenter HTML brug standard XHTML, da sidstnævnte er mere streng, når det kommer til håndtering af åbning og lukning af tags for elementer, med dette kan vi lettere lave programmer, der kan fortolke dette.I Python vi har til rådighed HTMLParser, dette bør ikke forveksles med klassen af det samme modulnavn htmllib, da det første er en del af standardbiblioteket, når vi får et dokument fra Ryddelig vi kan bruge HMTLParser for at kunne gennemse dets indhold.
Brug af HTMLParser
Brug HTMLParser, det betyder virkelig at underklasse det, så vi kan overskrive metoderne når det passer os og dermed være i stand til at opfylde vores krav, lad os se nedenfor en liste over de vigtigste metoder, som vi opnår, når vi bruger HTMLParser.
- handle_starttag (tag, attrs): Når der findes et starttag, er attrs en sekvens af par (navn, værdi).
- handle_startendtag (tag, attrs): Anvendes til tomme etiketter. Som standard håndterer den opstart og nedlukning separat.
- handle_endtag (tag): Bruges, når der findes et lukkemærke.
- handle_data (data): Det bruges, når vi finder tekstdata.
- handle_charref (ref): Det bruges, når der arbejdes med tegnreferencer i formularen & # ref;.
- handle_entityref (navn): Vi bruger det, når vi har referencer til enheder i formen & name;.
- handle_comment (data): Det kaldes kun, når der er kommenteret indhold.
- handle_decl (decl): Det bruges til erklæringer af formularen.
- handle_pi (data): Det bruges til at behandle instruktioner.
FORSTØRRE
Det første, vi bemærker, er det for dette Skrabning af skærmen vi kommer ikke til at bruge RyddeligDette er fordi den HTML, som vi skal inspicere, ikke er dårligt dannet, så ser vi, at det første, vi erklærer, er nogle boolske variabler, som vi vil kontrollere, om vi er inde i et element H4 eller inden for et linkelement eller link.Vi har noget særligt med metoden handle_dataDa vi er i et virkeligt miljø, skal vi forberede os på de mest komplekse scenarier, og med dette mener vi, at da det er næsten sikkert, at vi ikke får de nødvendige oplysninger om det første opkald, forbereder vi denne metode for at kunne få den i dele, når vi får alt, hvad vi gør, er at slutte sig til dataene.
Handlingen af vores program begynder, når vi kalder metoden feed () hvortil vi sender teksten, der er indholdet på den webside, vi får med metoden urlopen () og når alt dette er blevet behandlet, fortsætter vi med at kalde close () -metoden.
Endelig med dette opnåede vi et program på Skrabning af skærmen mere læsbar end at bruge regulære udtryk og lidt mere robust i det aspekt, at vi ikke begrænser os til faste strukturer, med dette kan vi få vores oplysninger korrekt.
Med dette afslutter vi vores HTMLParser -vejledning, som vi kan se, er der mange måder at komme til disse løsninger på for at få informationen fra en webside.Kan du lide og hjælpe denne vejledning?Du kan belønne forfatteren ved at trykke på denne knap for at give ham et positivt punkt