Thread Anfänger: RegEx-Templates / Handler? (8 answers)
Opened by Ionit at 2014-09-05 16:24

Ionit
 2014-09-05 16:24
#177096 #177096
User since
2006-05-16
81 Artikel
BenutzerIn
[default_avatar]
Sehr geehrte Perl-Community,
ich bin blutiger Anfänger was Perl/Programmierung anbelangt und möchte, zum besseren Verständnis, gerne eine Frage stellen.

Wenn man mit einem Perl-Spider diverse vordefinierte URLs aufruft um den dortigen Content extrahieren zu können (Alter, Haarfarbe, Figur, Beschreibung etc.) - die Anordnung des Contents aber von URL zu URL unterschiedlich ist, muss man dann für jede dieser URLs ein eigenes „RegEx-Template“ erstellen, das geladen wird wenn man eine bestimmte URL aufruft, um den Content extrahieren zu können?

Auf URL_1 befinden sich die Daten z.B. in benannten Div-Containern – auf URL_2 befindet sich der Content aber in Listen <li> – auf URL_3 gibt es weder Listen sondern Tabellen etc. – sprich die Webseiten, die die Daten enthalten, sind völlig unterschiedlich.

Wie verarbeitet man nun diesen Content? Gibt es in Perl überhaupt die Möglichkeit „RegEx-Templates“ anzulegen oder macht man das über Handler?

Wenn es z.B. 300 URLs gibt (die immer unterschiedlich im Aufbau sind) muss man dann auch 300 „RegEx-Templates“ anlegen?

Ich hoffe, meine Erklärungsversuche sind halbwegs verständlich … sorry wenn das etwas eigenartig klingt aber ich bin, wie oben erwähnt, absoluter Anfänger – daher entschuligt bitte meine unbeholfene Ausdrucksweise.

Danke schon mal im Voraus.

Matthias

View full thread Anfänger: RegEx-Templates / Handler?