RegEx-Frage (Allgemeines zu Perl)

[thread]5783[/thread]

RegEx-Frage

Gast Gast

2003-09-30 17:56

Hi,
ich bastle gerade ein wenig rum und dreh mal wieder wegen einer RegEx am Rad.

ich möchte gern für mein Forum eine quotingfunktion habe. soll heissen:

Quote
beginnt quoting,

beendet quoting.
Ist ja kein Thema.
/\[quote\](.*?)\[\/quote]/$1/

Aaaaaber, wie bekomm ich das hin, dass der auch mit verschachtelten quotes klar kommt, wie z.B.

Quote
altes Quoteing
Quote
gedönse
noch mehr text

???

Ich hoffe das ist jetzt nicht zu wirr.

Gruss
Stefan

kmonster

2003-09-30 18:07

User since
2003-08-20
33 Artikel
BenutzerIn
[default_avatar]

also ich würde jetzt eins nach dem anderen suchen und ersetzten. zuerst würde dann das innere gefunden dann das drum rum. gibt aber bestimmt eine elegantere lösung.

havi

2003-09-30 18:11

User since
2003-08-04
2036 Artikel
BenutzerIn

Am einfachsten wird es sein Strat zu fragen ob er dir sagt wie es hier funzt!

Gruss

Perl-Zeitung - http://perl-zeitung.at/
Perl-Blog - http://usr-bin-perl.blogspot.com/

Strat

2003-09-30 18:13

User since
2003-08-04
5246 Artikel
ModeratorIn

[quote=kmonster,30.09.2003, 16:07]also ich würde jetzt eins nach dem anderen suchen und ersetzten. zuerst würde dann das innere gefunden dann das drum rum. gibt aber bestimmt eine elegantere lösung.[/quote]
vielleicht so?

Code: (dl )

#! /usr/bin/perl
use warnings;
use strict;
use CGI ();
use HTML::Entities();
use Regexp::Common qw(balanced);
use URI::Find::Schemeless ();

$| = 1;    # no suffering from buffering

use vars qw(%TagsBlocked %TagsFastReplace %TagsLastReplace $HighlightBin);

# use external program from
# http://gnu.j1b.org/software/src-highlite/source-highlight.html
$HighlightBin = 'E:\apps\gnu\src-highlight\bin\source-highlight.exe';

# tags within which no further replacements should be done

# better replacing the font stuff by CSS
%TagsBlocked = (
    perle => {
        -start => qq~<br><b>PERL:</b>
			<table border="0" width="95%" cellpadding="8"><tr><td bgcolor="dddddd">
			<font face="Courier New, Courier, mono">~,
        -end    => qq~</font></td></tr></table>~,
        -string => \&HighlightPerlCode,
    },
    code => {
        -start => qq~<br><b>CODE:</b>
			<table border="0" width="95%" cellpadding="4"><tr><td bgcolor="dddddd">
			<font face="Courier New, Courier, mono">~,
        -end    => qq~</font></td></tr></table>~,
        -string => sub { return $_[0] },
    },
    perldoc => {
        -start  => "",
        -end    => "",
        -string => sub {
            return qq~ <a href="http://url/$_[0]">perldoc $_[0]</a> ~;
        },
    },
);

# tags to be replaced on the fly
%TagsFastReplace = (
    b => {
        -start  => "<b>",
        -end    => "</b>",
        -string => sub { return $_[0] },
    },
    i => {
        -start  => "<i>",
        -end    => "</i>",
        -string => sub { return $_[0] },
    },
);

# tags that may be recursive or containing other tags
%TagsLastReplace = (
    quote => {
        -start =>
          qq~<div align="center"><table border="1" width="95%"><tr><td>~,
        -end    => qq~</td></tr></table></div>~,
        -string => sub { return $_[0] },
    },
);

{
    local $/;    # slurp in data
    my $posting = <DATA>;

    &ParseText($posting);
}

# ------------------------------------------------------------
sub ParseText {
    my ($text) = @_;

    $text = &CGI::escapeHTML($text);
    $text =~ s/\n/<br>\n/g;    # replace newlines by <br>

    my @scanned = ();

    # extract and replace %TagsBlocked
    foreach my $tag ( keys %TagsBlocked ) {

        # @scanned yet empty, start with $text
        unless ( scalar(@scanned) ) {
            @scanned = &PostFilterBlocked( $text, $tag );
        }                      # unless

        # @scanned filled, start scanning the rest
        else {
            my @scanned2 = ();    # temporary variable
            foreach (@scanned) {

                # skip already scanned parts
                push ( @scanned2, $_ ), next if ref($_);

                # scan only if scalar
                push ( @scanned2, &PostFilterBlocked( $_, $tag ) );

            }                     # foreach
            @scanned = @scanned2;
        }    # else
    }    # foreach

    # replace %TagsFastReplace
    foreach my $tag ( keys %TagsFastReplace ) {

        # @scanned yet empty, start with $text
        unless ( scalar(@scanned) ) {
            @scanned = &PostFilterFastReplace( $text, $tag );
        }    # unless

        # @scanned filled, start scanning the rest
        else {
            my @scanned2 = ();    # temporary variable
            foreach (@scanned) {

                # skip already scanned parts
                push ( @scanned2, $_ ), next if ref($_);

                # scan only if scalar
                push ( @scanned2, &PostFilterFastReplace( $_, $tag ) );

            }                     # foreach
            @scanned = @scanned2;
        }    # else
    }    # foreach

    # prepare finder sub for replacing URIs in Text with HTML-Links
    my $uriFinder = URI::Find::Schemeless->new(
        sub {
            return qq~<a href=\"~
              . &HTML::Entities::encode_entities("$_[0]")
              . qq~\" target="_blank">~
              . &HTML::Entities::encode_entities( $_[1] ) . '</a>';
        }
    );

    # replace URIs in Text with HTML-Links
    ref($_) or $uriFinder->find( \$_ ) foreach @scanned;

    # build string and replace code/perl/...-tags with [\0\0$tag]
    # to prevent further parsing
    my $string = join (
        "",
        map {
            ref($_)
              ? map {
                my $r = $_;
                $r =~ s/(\[)(.+\])/$1."\0\0".$2/gse;
                $r;
              } values( %{$_} )
              : $_;
          } @scanned
    );

    # replace stuff that might contain other tags (like quote)
    foreach my $tag ( keys %TagsLastReplace ) {
        $string = &PostFilterLastReplace( $string, $tag );
    }    # foreach

    $string =~ s/\0\0//g;    # remove \0\0 (from [\0\0$tag])
    print "\n\n", $string;

}    # ParseText

# ------------------------------------------------------------
sub PostFilterBlocked {
    my ( $text, $tag ) = @_;

    my $startLength = length("[$tag]");
    my $endLength   = length("[/$tag]");

    my @scanned = ();

    my $startPos = index( $text, "[$tag]" );
    my $lastPos  = 0;

    print "\nScanning for tag [$tag]";
    while ( $startPos != -1 ) {
        print " $startPos";

        # add leading part to @scanned
        my $string = substr( $text, $lastPos, $startPos - $lastPos );
        push ( @scanned, $string ) if length $string;

        # check if [$tag]...[/$tag]-block found
        $lastPos = index( $text, "[/$tag]", $startPos + $startLength );
        print "-$lastPos";
        unless ( $lastPos == -1 ) {    # if found

            # push reference to @scanned: { $tag => $string }
            my $string = substr(
                $text,
                $startPos + $startLength,
                $lastPos - $startPos - $startLength
            );
            $string =~ s/^\r?\n//g;
            $string =~ s/\r?\n$//g;

            # replace tags with replacement
            $string =
              $TagsBlocked{ lc($tag) }->{ -start }
              . $TagsBlocked{ lc($tag) }->{ -string }->($string)
              . $TagsBlocked{ lc($tag) }->{ -end };

            # add to queue as reference
            push ( @scanned, { $tag => $string } ) unless $string =~ /^\s*$/;

        }    # if

        else {    # if not found

            # push rest of $text to @scanned (as string)
            my $string = substr( $text, $startPos, length($text) - $startPos );

            # if last line was in @TagsBlocked, add new array element
            if ( ref $scanned[-1] ) {
                push ( @scanned, $string ) if length $string;
            }

            # if not, append as text to the last element
            else {
                $scanned[-1] .= $string;
            }    # else

            last;    # and exit while

        }    # else

        # (re-)initialize next search position
        $lastPos += $endLength;

        # search for next [tag]
        $startPos = index( $text, "[$tag]", $lastPos );

    }    # while

    # care for rest of $text
    if ( $lastPos != -1 ) {
        my $string = substr( $text, $lastPos, length($text) - $lastPos );
        push ( @scanned, $string ) if length($string);
    }    # if

    return @scanned;
}    # PostFilterBlocked

# ------------------------------------------------------------
sub PostFilterFastReplace {
    my ( $text, $tag ) = @_;
    print "\nScanning for tag [$tag]";

    my $startLength = length("[$tag]");
    my $endLength   = length("[/$tag]");

    my @scanned = ();

    while (
        $text =~ s/
	    \[\Q$tag\E\]
	    (.+?)
	    \[\/\Q$tag\E\]
	    /
	    $TagsFastReplace{lc($tag)}->{-start} .
	    $TagsFastReplace{lc($tag)}->{-string}->($1) .
	    $TagsFastReplace{lc($tag)}->{-end}
	    /xseig
      )
    {
        1;
    }    # while

    return $text;
}    # PostFilterFastReplace

# ------------------------------------------------------------
sub PostFilterLastReplace {
    my ( $string, $tag ) = @_;
    print "\nScanning for tag [$tag]";

    my $startLength = length("[$tag]");
    my $endLength   = length("[/$tag]");

    1 while $string =~ s!
	$RE{balanced}{-begin => "[$tag]"}{-end => "[/$tag]"}{-keep}
    !
 	$TagsLastReplace{lc($tag)}->{-start} .
	$TagsLastReplace{lc($tag)}->{-string}->
	(substr ($1, $startLength, -$endLength) ) . 
	$TagsLastReplace{lc($tag)}->{-end};
    !gex;

    return ($string);
}    # PostFilterLastReplace

# ------------------------------------------------------------
sub HighlightPerlCode {
    my $code = shift;

    use Perl::Tidy;
    my @dest;
    perltidy(
        source      => \$code,
        destination => \@dest,

        #	      argv => '-html',
    );

    return join ( "", @dest );

}    # HighlightPerlCode

# ------------------------------------------------------------

Hallo Leute,

[b]das[/b] ist [i]mein [b]erstes[/i] Posting:
[perldoc]CGI[/perldoc] oder so.
[perle]#! /usr/bin/perl
use warnings;
use strict;
use CGI ();
my $cgi = CGI->new();[/perle]
und das[/b] ist was anderes:
[perldoc]CGI[/perldoc]
[perle]#! /usr/bin/perl
use warnings;
use strict;
use CGI ();
my $cgi = CGI->new();
my $string = "[perldoc]CGI[/perldoc]";[/perle]
normaltext
[quote]error
error
[quote]Strat, 12.08.2003 14:04
[URL=ftp://ftp.gnu.org/]ftp://ftp.gnu.org/[/URL] ftp.gnu.org
Quoting Level 1
[quote]
Quoting Level 2
[perle]#! /usr/bin/perl
@list = (1..30);
foreach (0..$#list) {
    print "$list[$_]";
}[/perle]
[URL=http://www.fabiani.net/]http://www.fabiani.net/[/URL]
[/quote]
Quoting Level 1 www.fabiani.net
[/quote]

\n\n

perl -le "s::*erlco'unaty.'.dk':e,y;*kn:ai;penmic;;print"
http://www.fabiani.net/

Thorium

2003-09-30 18:13

User since
2003-08-04
232 Artikel
BenutzerIn

z.b.

Code (perl): (dl )

1
2

s~\[quote\]~<;!--QuoteBegin-->;<table border="0" align="center" width="95%" cellpadding="0" cellspacing="0"><tr><td><b>Zitat</b> </td></tr><tr><td id="QUOTE"><;!--QuoteEBegin-->;~g;
s~\[/quote\]~<;!--QuoteEnd-->;</td></tr></table><;!--QuoteEEnd-->;~g;

Vielleicht willst du noch kontrollieren ob gleichviele Quotes auf wie zu gehen...
Ist ne schnell, schnell, billig lösung

EDIT: aber scheinbar war jemand mit mehr, schneller ^^\n\n

Per|li|nist der; -en, -en <zu â...ist>: a) AnhÃ¤nger, Vertreter der radikalen Perlinisten die Perl als die einzig wahre Sprache ansehen; b) Mitglied einer perlinistischen Community.

Magic

2003-10-01 09:23

User since
2003-09-30
91 Artikel
BenutzerIn

Soweit, Sogut ich blicke zwar durch Strats geschreibsel noch nicht ganz durch, aber es hat schon einen Haken: Module. Das ganze sollte ohne Module von Statten gehen.
Ich dachte das würde durch einen einfachen Ausdruck ala "s~/findedasundauchverschachtelt/erstzedann/g" funzen :(
Bei der Quotingfunktion könnt ich mich noch auf nen Kompromiss einlassen und einfach 2 mal suchen/ersezten lassen (einmal öffnenden Tag, einmal schliessenden). Dürfte allerdings, bei langen Postings, doch etwas lahmarschig sein.

Gruss
Stefan:(

Ein Weiser gibt nicht die richtigen Antworten, sondern er stellt die richtigen Fragen.

Thorium

2003-10-01 10:35

User since
2003-08-04
232 Artikel
BenutzerIn

Wenn du nen * oder + in deiner Regex hast ist die sicherlich 10 mal langsamer als ohne... btw

EDIT:
Benchmark ;)

Code: (dl )

#!/usr/bin/perl

use warnings;
use strict;
use Benchmark;

my $string = 'Soweit, Sogut ich blicke zwar durch Strats geschreibsel noch nicht ganz durch, aber es hat schon einen Haken: 

Module. Das ganze sollte ohne Module von Statten gehen.
Ich dachte das würde durch einen einfachen Ausdruck ala "s~/findedasundauchverschachtelt/erstzedann/g" funzen 
Bei der Quotingfunktion könnt ich mich noch auf nen Kompromiss einlassen und einfach 2 mal suchen/ersezten lassen (einmal

# viel text, viel text, viel Text

öffnenden Tag, einmal schliessenden). Dürfte allerdings, bei langen Postings, doch etwas lahmarschig sein.';

Benchmark::cmpthese(5000000, {
	'mit *' 	=> sub { $string =~ m/Ich.*funzen/g; },
        'ohne *' 	=> sub { $string =~ m/Ich/g; $string =~ m/funzen/g; },
});

Code: (dl )

C:\>ben.pl
           Rate  mit * ohne *
mit *  639959/s     --   -26%
ohne * 865052/s    35%     --

Bei längerem Text wirkt sich das viel mehr aus als bei kürzerem, btw...
also bei kürzerem text wars mit * schneller - bei längerem versagt * kläglich ;)\n\n

Per|li|nist der; -en, -en <zu â...ist>: a) AnhÃ¤nger, Vertreter der radikalen Perlinisten die Perl als die einzig wahre Sprache ansehen; b) Mitglied einer perlinistischen Community.

Strat

2003-10-01 11:17

User since
2003-08-04
5246 Artikel
ModeratorIn

[quote=Magic,01.10.2003, 07:23]Soweit, Sogut ich blicke zwar durch Strats geschreibsel noch nicht ganz durch, aber es hat schon einen Haken: Module. Das ganze sollte ohne Module von Statten gehen.[/quote]
warum keine Module? Regexp::Common und CGI sind Standardmodule, und HTML::Entities auch, wenn ich mich recht erinnere; und URI::Find brauchst du nur fuer das automatische verlinken von URLs (wenn du das nicht willst, einfach die Bloecke mit URI::Find und $uriFinder ersatzlos streichen).
Diese Module vereinfachen die Arbeit sehr, und beschuetzen dich davor, Fehler und Sicherheitsluecken reinzubringen.

Codeerklaerung:
Ganz oben werden drei Datenstrukturen initialisiert, die dann so der Reihe nach ersetzt werden:
1. Fixe Sachen, in denen nichts ersetzt werden soll, wie z.B. PERLE/CODE-Tags (%TagsBlocked/&PostFilterBlocked)
Der Output davon ist eine Liste, wo die code/perle-Bloecke als Referenzen gespeichert werden, damit sie nicht mehr weiter bearbeitet werden. Anderer Text wird einfach als Text gespeichert und spaeter noch bearbeitet.
2. %TagsFastReplace/&PostFilterFastReplace: Tags, die on the fly ersetzt werden sollen, und dabei aber auch eine beliebige Verschachtelung gestatten
3. %TagsLastReplace/&PostFilterLastReplace: Tags, die nach dem Ablauf ersetzt werden, weil sie z.B. auch code/perle-Bloecke enthalten koennen. Bei denen werden die "Tags" (z.B. Listen wie in $liste[4] temporaer durch [\0\0$tag] (z.B. $liste[\0\04] ersetzt, damit sie nicht erkannt werden, und nach der Ersetzung wird das \0\0 wieder entfernt.

Alle Klarheiten beseitigt? Wenn du nochwas nicht verstehst, brauche ich konkrete Fragen. Dieses Stueck Code habe ich mal als Test geschrieben, wie man das mit der Tagsersetzung fuer das neue Forum moeglichst sicher machen koennte.\n\n

perl -le "s::*erlco'unaty.'.dk':e,y;*kn:ai;penmic;;print"
http://www.fabiani.net/

Strat

2003-10-01 11:25

User since
2003-08-04
5246 Artikel
ModeratorIn

BTW: habe die Tags hier PERLE genannt, weil das Forum was gegen [PERL] hat ;-)

perl -le "s::*erlco'unaty.'.dk':e,y;*kn:ai;penmic;;print"
http://www.fabiani.net/

Magic

2003-10-01 12:29

User since
2003-09-30
91 Artikel
BenutzerIn

Also, Regexp::Common ist scheinbar kein Standardmodul. Ist zumindest bei mir nirgendwo zu finden (ActiveState 5.8). :(

Ein Weiser gibt nicht die richtigen Antworten, sondern er stellt die richtigen Fragen.

View all threads created 2003-09-30 17:56.