Grundlegende Frage zu Regulären Ausdrücken (HTML ausfiltern) - #111648 (Allgemeines zu Perl)

FIFO

2008-06-29 15:13

User since
2005-06-01
469 Artikel
BenutzerIn

user image

Roper+2008-06-29 00:28:39--
Da ich die HTML Seiten um die es geht alle selber geschrieben habe, kann ich sehr sicher sein, dass absolut keine außergewöhnlichen Konstruktionen enthalten sind, sondern nur normales HTML.

Jaja, dieses Stadium haben wahrscheinleich alle mal durchgemacht ;-)

Normales HTML ist schon schwierig genug zu parsen ;-) Wenn Du meinst, dass in Deiner Datei die spitzen Klammern ausschließlich für das Kennzeichnen von HTML-Tags dienen und innerhalb der < > auch nur Wegwerfinformation steht, dann geht es natürlich mit RegEx (vgl. esskar):

Code (perl): (dl )

1
2

# Für eine Zeile:
$line =~ s/<.*?>//g;

Das '?' hinter dem Quantifier '*' bewirkt, dass nur bis zum ersten '>' gesucht wird, sonst wird nämlich alles vom ersten '<' bis zum letzten '>' gematcht ('gieriges' Verhalten). Der Modifier 'g' (global) führt zum Ersetzen aller Tags in $line, ansonsten wird nur der erste Treffer entfernt.
Schau Dir mal perlrequick und perlretut an ...

Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"