HTML-Code aus Zeichenkette entfernen (Perl/CGI)

[thread]372[/thread]

HTML-Code aus Zeichenkette entfernen

Gast Gast

2004-08-29 21:50

Hallo,

Ich habe mir ein Gästebuchscript geschrieben.
Nun möchte ich, außer und keine HTML-Tags zulassen.

Theoretisch müsste ich diese doch folgendermaßen rausfiltern:
$nachricht =~ s/<[^bi]>//gi;
$nachricht =~ s/<\/[^bi]>//gi;

Das funktioniert aber nicht. Egal was ich mache, er entfernt absolut kein HTML-Tag.

Kann mir jemand weiterhelfen ?

Danke schomal im vorraus.

Grüße

Matthias

coax

2004-08-29 22:00

User since
2003-08-11
457 Artikel
BenutzerIn
[default_avatar]

probier's mal damit

Code: (dl )

$nachricht =~ s~</?[^bi]+?>~~gis;

\n\n

,,Das perlt aber heute wieder...'' -- Dittsche

MatthiasR

2004-08-29 22:10

User since
2004-08-29
7 Artikel
BenutzerIn
[default_avatar]

Danke für die schnelle Antwort.

Aber es funzt auch nicht.
Ich habe ja so langsam das Gefühl, als ob er mit dem ^ nichts anfangen kann. lasse das Zeichen weg dann entfernt er mit nur den Fett und Kursiv-Tag.

Gibt es noch eine andere Möglichkeit ohne das ^ Zeichen ?

Grüße

Matthias

MatthiasR

2004-08-29 22:17

User since
2004-08-29
7 Artikel
BenutzerIn
[default_avatar]

Also habe es jetzt mal auf eine Umständliche Art und Weise gemacht:

$nachricht =~ s/<([bi])>/\[_$1_\]/gi;
$nachricht =~ s/<\/([bi])>/\[_\/$1_\]/gi;
## und umwandeln in [_b_] ...

$nachricht =~ s/<.+?>//gi;
## alle html-Codes entfernen

$nachricht =~ s/\[_([bi])_\]/<$1>/gi;
$nachricht =~ s/\[_\/([bi])_\]/<\/$1>/gi;
## und das [_b_] ... wieder in html-code bringen.

Damit geht es wenigstens.
Aber es müsste doch auch mit [^bi] funktionieren ?!?!\n\n

[E|B]

2004-08-29 22:28

User since
2003-08-08
2561 Artikel
HausmeisterIn

@MatthiasR

Zufall oder Wirklichkeit? :D
Willkommen auf Perl-Community.de!

Gruß, Erik!

s))91\&\/\^z->sub{}\(\@new\)=>69\&\/\^z->sub{}\(\@new\)=>124\&\/\^z->sub{}\(\@new\)=>);
$_.=qq~66\&\/\^z->sub{}\(\@new\)=>93~;for(@_=split(/\&\/\^z->sub{}\(\@new\)=>/)){print chr;}

It's not a bug, it's a feature! - [CGI-World.de]

MatthiasR

2004-08-29 22:31

User since
2004-08-29
7 Artikel
BenutzerIn
[default_avatar]

Hallo Erik,

Tja, wo man sich überall trifft :-)

Solche sachen kotzen mich eben bei der Programmierung (egal welche Sprache) an. Theorie und Praxis sind grundverschieden ;-)

Grüße

Matthias

coax

2004-08-29 23:00

User since
2003-08-11
457 Artikel
BenutzerIn
[default_avatar]

Das [^bi] wuerde nur Tags wie <a>,<c>..<h>,<j>..<z> entfernen. Also keine die mehrere Buchstaben beinhalten.
Meine Loesung wiederum wuerde nur die Tags herausloeschen die von vorne bis hinten kein b oder i im Namen enthalten, <head> waere so eins <body> und <table> jedoch nicht.
Ich kommm aber momentan auch auf keine angenehme RE-Loesung :(.

Grusz co(dermalwiedermehrueberRegExpslesensollte)ax.

,,Das perlt aber heute wieder...'' -- Dittsche

Dubu

2004-08-30 02:21

User since
2003-08-04
2145 Artikel
ModeratorIn + EditorIn

user image

Code: (dl )

#!/usr/bin/perl
use strict;
use warnings;

my $message = <<EOT;
<p>Dies ist ein <b>Testtext in HTML</B>,
der <a href="link">einen Link</a> und <i>andere </i> Tags
enthalten soll. <br />
<img src="foo.png" alt="Foo" /> <img src="bar.png" alt="bar"></img>
</p>
EOT

$message =~ s~<([^bi]|/[^bi]|/?[^/>]{2,}/?)>~&lt;$1&gt;~gi;

# oder vielleicht so: (nur oeffnende Klammern ersetzen)

# $message =~ s~<(?!b>|i>|/b>|/i>)~&lt;~gi;


print $message;

Wie man sieht, kommt die zweite Variante besser mit einzelnen Kleiner- oder Groesserzeichen klar. Dafuer kann man mit der ersten Variante sehr einfach alles, was nach Tag aussieht, direkt loeschen (Ersetzungsteil einfach leer lassen).

MatthiasR

2004-08-30 13:29

User since
2004-08-29
7 Artikel
BenutzerIn
[default_avatar]

Habe es mal ausprobiert und es funktioniert !!! Danke !!!

Aber ein paar Fragen habe ich noch:
Was beudetet bei der 2. Möglichkeit das '?!' ??
soweit ich weiß bezieht sich ein '?' auf ein vorheriges Zeichen (aber welches soll das sein), das '!' habe ich in diesem Zusammenhang aber noch nicht gesehen.

Kannst Du die 1. Möglichkeit bitte mal etwas genauer erläutern ?
Bis '<([^bi]|/[^bi]' verstehe ich es, aber danch hör ich nur noch ein lautes 'tuuuuuut' ;)

Grüße

Matthias\n\n

Crian

2004-08-30 13:45

User since
2003-08-04
5881 Artikel
ModeratorIn

[quote=MatthiasR,29.08.2004, 20:31]Solche sachen kotzen mich eben bei der Programmierung (egal welche Sprache) an. Theorie und Praxis sind grundverschieden ;-)[/quote]
Nein, wo/was denn?

?! ist negative look ahead (null zeichen)
Man schaut halt, ob das was dort angegeben wird nicht folgt. Gefangen wird nichts.

Code: (dl )

s~<(?!b>|i>|/b>|/i>)~&lt;~gi

bedeutet:

Jede öffnende spitze Klammer, auf die weder b> noch i> noch /b> noch /i> folgt, wird durch < ersetzt.

Zu

Code: (dl )

s~<([^bi]|/[^bi]|/?[^/>]{2,}/?)>~&lt;$1&gt;~gi

Man sucht nach einer spitzen öffnenden Klammer, auf die ein Zeichen folgt, das kein b und kein i ist oder auf die ein Slash und ein Zeichen folgt, das kein b und kein i ist oder auf die ein optionales Slash und mindestens zwei Zeichen, die weder Slash noch schließende spitze Klammer sind gefolgt von einem optionalen Slash folgt.

Code: (dl )

[^bi]|/[^bi]

liesse sich auch zu

Code: (dl )

/?[^bi]

zusammenfassen.

Damit hätte man dann zum Beispiel:

Code: (dl )

s~<(/?(?:[^bi]|[^/>]{2,}/?))>~&lt;$1&gt;~gi

Der optionale Slash am Ende bezieht sich wohl auf sowas wie  .

Wenn man sich jetzt noch den Gefallen tut mit x zu arbeiten wirds auch übersichtlicher:

Code: (dl )

s~<
   (
    /?
    (?:
      [^bi]          |
      [^/>]{2,}/?
    )
   )
   >
  ~&lt;$1&gt;~gix

Ach ja und bevor Du fragst ;) (?: ... ) ist eine gruppierende aber nicht speichernde Klammer. Ohne ?: wäre der Inhalt nochmal zusätzlich in $2 abgelegt worden, was unnötig Platz und Zeit kostet.\n\n

s--Pevna-;s.([a-z]).chr((ord($1)-84)%26+97).gee; s^([A-Z])^chr((ord($1)-52)%26+65)^gee;print;

use strict; use warnings; Link zu meiner Perlseite

View all threads created 2004-08-29 21:50.