Thread Regex und das n-te vorkommen eines strings im HTML
(2 answers)
Opened by raphael_s at 2010-12-20 12:00
Hi,
ich habe aus Deinem Prosatext leider nicht genau verstanden, was das eigentliche Problem ist und welche Sonderfälle Dein Skript abdecken muss. Aber: Dein Input ist HTML. Warum willst Du das Rad neu erfinden und einen eigenen HTML-Subset-Parser schreiben? Nimm' doch einen Parser aus CPAN. Ich würde den Input in HTML::TreeBuilder einlesen und dann im HTML-Tree nach den beötigten Werten suchen. Da bist Du vor Sonderfällen im Input, die Deine selbstgestricken Refex aushebeln würden wesentlich besser geschützt. (Evtl. kann man als Zwischenschritt auch noch einen Filter über den HTML-Tree jagen, der alle nicht benötigten Zweige entfernt.) |