Thread Perl LWP / allgemein Website parsing (6 answers)
Opened by Gerd at 2014-02-10 17:40

Gast Gerd
 2014-02-10 20:06
#173493 #173493
Danke für den Link GwenDragon!
Das Buch ist von April 1997, ist das noch aktuell in Bezug auf das aktuelle Perl?
Mit Plaintext meine ich, dass ich alle Textelemente der Seite extrahieren möchte, also z.B. Grafiken, Multimedia-Streams, Flash komplett übergangen werden. Bin nur daran interessiert alles "geschriebene" auf der Seite zu analysieren. Eine Ebene tiefer soll heißen dass ich von einer Startseite ausgehend nur allen diesen Links auf EINE Unterseite folge und dann nicht noch weitern Links auf eine "Unter-Unter-Seite" folgen will.
Bsp:
Home --> folge Link auf Seite 1
Home --> folge Link auf Seite 2
etc.
und NICHT:
Home --> folge Link auf Seite 1 --> folge Link auf Seite 1a --> ...

man sagt glaube ich "Rekursionstiefe von 1" dazu!?
Gruss Gerd
Last edited: 2014-02-10 20:14:39 +0100 (CET)

View full thread Perl LWP / allgemein Website parsing