Semalt: Estrazzjoni ta 'URLs minn Paġni tal-Web Bi Soppa Sabiħa

Soppa sabiħa hija pakkett ta 'livell għoli Python użat biex jiġi analizzat id-dokumenti XML u HTML. Il-librerija sabiħa tas-Soppa Python toħloq siġra ta ’parse li tintuża biex tiġi estratta informazzjoni utli mill-HyperText Markup Language (HTML). Din il-librerija hija disponibbli kemm għall-verżjonijiet Python 2 kif ukoll għal Python 3.

F'ħafna każijiet, issib li d-dejta fil-mira tiegħek tista 'tiġi aċċessata biss u użata bħala parti minn paġna tal-web. F'każ bħal dan, trid tuża din it - teknika ta ' brix tal-web li tista' tiġbed dejta fil-formati li jistgħu jiġu analizzati. Dan huwa fejn tidħol il-librerija tas-Soppa sabiħa.

Rekwiżiti

Għandek bżonn il-moduli t-tajba biex tuża l-librerija tas-Soppa sabiħa. Biex tibda, għandek bżonn tinstalla lingwa ta 'programmazzjoni Python 2.7 fuq il-magna tiegħek. F'din il-kariga, int ser titgħallem kif tinbarax websajt u estratt l-URLs kollha billi tuża Talbiet u Soppa Sabiħa 4. It-parsing HTML huwa kompitu do-it-yourself, speċjalment bl-għajnuna teknika ta 'Beautiful Soup.

Għaliex Uża Soppa Sabiħa?

Beautiful Soup huwa pakkett ta ’Python bl-ogħla grad li ġie użat biex jinbarax il-websajts u jikkalma t-tikketti HTML mill-2004. Riċentement, Beautiful Soup 4 issostitwixxa Beautiful Soup 3 fl-industrija. Innota li BS4 jaħdem fuq iż-żewġ verżjonijiet Python filwaqt li BS3 jaħdem biss fuq Python 2.7. Il-librerija tinkludi l-karatteristiċi inkorporati li ġejjin:

  • Kapaċità ta 'kodifikazzjoni - M'għandekx għalfejn paniku dwar il-kodifikazzjonijiet ladarba tinstalla l-moduli tas-Soppa sbieħ meħtieġa fuq il-magna tiegħek. Il-librerija hija awtomatizzata biex tikkonverti l-inputs għal Unicode u l-outputs għal UTF-8.
  • Kapaċità ta 'navigazzjoni - Soppa sabiħa toffri metodi faċli biex jintużaw biex tfittex, tinnaviga u timmodifika siġra ta' parse.

Kif tuża librerija tas-soppa sabiħa?

Wara l-installazzjoni tas-Soppa sabiħa fuq il-magna tiegħek, tista 'tibda tuża l-librerija. Biex tibda, timporta bs4 librerija fil-bidu tal-kodiċi Python tiegħek. Għaddi kontenut jew URL minn Soppa sabiħa biex toħloq oġġett tas-Soppa. Madankollu, il-librerija ma tfittexx il-paġna web fil-mira fiha nfisha. Hawnhekk, trid tlesti dik il-biċċa xogħol manwalment. Tista 'wkoll faċilment iġġib il-paġni tal-web preferuti billi tuża taħlita ta' Python u Beautiful Soup.

Rwoli tal-librerija tat-talba

Biex tinbarax paġna, l-ewwel għandek tniżżilha. Tista 'tniżżel il-paġni tal-web billi tuża l-librerija tat-talba. It-talbiet tal-librerija jaħdem billi jagħmlu talba "GET" lis-servers tal-web, li min-naħa tagħhom se jniżżlu l-kontenut HTML tal-paġna web preferuta.

Estrazzjoni ta 'URLs minn paġni tal-web

Issa għandek informazzjoni dettaljata rigward il-librerija tas-Soppa sabiħa. Taħlita ta 'librerija BS4 u Python tgħinek iġġib paġna tal-web malajr ħafna. Biex estratt l-URLs kollha mill-paġna tal-web fil-mira tiegħek, uża l-metodu "issib kollha" Dan il-metodu jagħtik kumpilazzjoni ta 'elementi bit-tikketta. Minn bs4, timporta kemm soppa sabiħa kif ukoll talbiet. Ħaddem il-kodiċi tiegħek u daħħal websajt jew paġna tal-web biex estratt l-URL minn.

mass gmail