Thread Regex und das n-te vorkommen eines strings im HTML (2 answers)
Opened by raphael_s at 2010-12-20 12:00

clms
 2010-12-20 12:49
#143728 #143728
User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]
Hi,

ich habe aus Deinem Prosatext leider nicht genau verstanden, was das eigentliche Problem ist und welche Sonderfälle Dein Skript abdecken muss.

Aber: Dein Input ist HTML.
Warum willst Du das Rad neu erfinden und einen eigenen HTML-Subset-Parser schreiben?
Nimm' doch einen Parser aus CPAN.

Ich würde den Input in CPAN:HTML::TreeBuilder einlesen und dann im HTML-Tree nach den beötigten Werten suchen. Da bist Du vor Sonderfällen im Input, die Deine selbstgestricken Refex aushebeln würden wesentlich besser geschützt.

(Evtl. kann man als Zwischenschritt auch noch einen Filter über den HTML-Tree jagen, der alle nicht benötigten Zweige entfernt.)

View full thread Regex und das n-te vorkommen eines strings im HTML