Suche nach zwei Begriffen (Perl/CGI)

[thread]439[/thread]

Suche nach zwei Begriffen

Leser: 1

Gast Gast

2005-02-20 21:50

Ich benutze eine Textdatei als Datenbank. Nun möchte ich in ein Suchfeld zwei Begriffe (oder auch mehr) eingeben. Es sollen aber nur Datensätze/Zeilen ausgeworfen werden, die genau diese beiden Begriffe (oder mehr) enthalten.

Wie ich nach einer Zeichenkette suche, weiß ich.

Narim

betterworld

2005-02-20 22:09

User since
2003-08-21
2614 Artikel
ModeratorIn

user image

Also, Du weisst, wie Du Zeilen ausgibst, die eine Zeichenkette beinhalten. Dann musst Du ja nur noch wissen, was der "and"-Operator bzw der "&&"-Operator macht. Gib mal perldoc perlop in der Shell ein, da steht das.\n\n

Lieblingsmodule: CPAN:

IPC::System::Simple, CPAN:

Path::Class

Taulmarill

2005-02-21 11:42

User since
2004-02-19
1750 Artikel
BenutzerIn

user image

so in etwa sollte das aussehen, code ist ungetestet:

Code: (dl )

use strict;
use warnings;

my @such = qw/foo bar/; # zwei suchbegriffe
open FILE, "</meine/datei.txt" or die $!;
while ( my $zeile = <FILE> ) {
    if ( $zeile =~ /${such[0]}/ and $zeile =~ /${such[1]}/ ) {
        print $zeile;
    }
}
close FILE;

\n\n

$_=unpack"B*",~pack"H*",$_ and y&1|0& |#&&print"$_\n"for@.=qw BFA2F7C39139F45F78 0A28104594444504400 0A2F107D54447DE7800 0A2110453444450500 73CF1045138445F4800 0 F3EF2044E3D17DE 8A08A0451412411 F3CF207DF41C79E 820A20451412414 83E93C4513D17D2B

Gast Gast

2005-02-21 17:29

Ohne regulären Ausdruck mit beliebiger Anzahl Wörtern mit UND Verknüpfung:

Code: (dl )

#!/usr/bin/perl
use warnings;
use strict;
                                                                                
my @searched = qw( die ist );
                                                                                
line:
while ( my $l = <DATA> ) {
    for( @searched )
      { next line unless index($l, $_) + 1 }
    print $l;
}
                                                                                
# Das hier gehört nach _ _ DATA _ _, das Forum killt das aber.
Das ist die erste Zeile.
Dies ist die zweite Zeile.
Hier kommt Nummer drei.

\n\n

Taulmarill

2005-02-21 17:48

User since
2004-02-19
1750 Artikel
BenutzerIn

user image

hm, index() sollte hier schneller sein, da es spezialisierter ist.
ich werd das mal nachher benchmarken wenn ich zeit habe.

Gast Gast

2005-02-21 18:40

[quote=Taulmarill,21.02.2005, 16:48]hm, index() sollte hier schneller sein, da es spezialisierter ist.
ich werd das mal nachher benchmarken wenn ich zeit habe.[/quote]
Ich hab das mal durch Benchmark gejagt. Den RegEx-Code hab' ich modifiziert um eine variable Anzahl an Suchbegriffen per AND zu ermöglichen:

Code: (dl )

#!/usr/bin/perl
use warnings;
use strict;
                                                                               
use Benchmark qw(:all);
my @searched = qw( Eins Dies );
my @lines    = <DATA>;
                                                                               
cmpthese( 1_000_000, {
    'index' => sub { by_index( \@searched, \@lines ) },
    'w_reg' => sub { by_walked_regex( \@searched, \@lines ) },
});
                                                                               
                                                                               
sub by_index {
    my @such = @{ $_[0] };
    my @lin  = @{ $_[1] };
                                                                               
    line:
    while ( my $l = shift @lin ) {
        for( @such )
          { next line unless index( $l, $_ ) + 1 }
        print STDERR "i  $l";
    }
}
                                                                               
sub by_walked_regex {
    my @such = @{ $_[0] };
    my @lin  = @{ $_[1] };
                                                                               
    line:
    while ( my $l = shift @lin ) {
        for( @such )
          { next line unless $l =~ /$_/ }
        print STDERR "wr $l";
    }
}
                                                                               

Dies ist Zeile Eins, wird gefunden.
Dies ist Zeile Zwei, wird nicht gefunden.
Dies ist Zeile Drei, wird auch nicht gefunden.

Das Ergebnis:

Code: (dl )

phaylon@hamlett:~/ptests> perl search_bench.pl 2>/dev/null
         Rate w_reg index
w_reg 13687/s    --  -66%
index 40145/s  193%    --
phaylon@hamlett:~/ptests>

hth

ptk

2005-02-21 20:41

User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]

Welches Perl? Mit 5.8.0 und 5.8.6 (Linux) sind beide Variante gleich schnell (1% Unterschied).

Gast Gast

2005-02-21 21:26

Code: (dl )

This is perl, v5.8.3 built for i586-linux-thread-multi

Code: (dl )

phaylon@hamlett:~/ptests> cat /proc/cpuinfo
...
cpu MHz         : 2994.546
cache size      : 1024 KB

Hier noch ein Durchlauf mit timethese statt cmpthese:

Code: (dl )

phaylon@hamlett:~/ptests> perl search_bench.pl 2>/dev/null
Benchmark: timing 1000000 iterations of index, w_reg...
     index: 25 wallclock secs (24.36 usr +  0.62 sys = 24.98 CPU) @ 40032.03/s (n=1000000)
     w_reg: 74 wallclock secs (72.47 usr +  1.10 sys = 73.57 CPU) @ 13592.50/s (n=1000000)

Ideen? :D

ptk

2005-02-21 21:32

User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]

Alles klar... als Neuling bist du ueber den _ _ BLA _ _ -Bug in diesem Forum gestolpert. _ _ DATA _ _ und _ _ END _ _ werden stillschweigend geloescht, wenn sie richtig geschrieben werden. Mit dem korrekten DATA-Block bekomme ich auch deine Ergebnisse.

Gast Gast

2005-02-22 00:04

Argh. Nein, ich hab's nur beim zweiten mal wieder verdrängt ..

View all threads created 2005-02-20 21:50.