Wörter zählen in Textdaten (Perl 5.8) - #141766 (Allgemeines zu Perl)

GwenDragon

2010-10-07 12:25

User since
2005-01-17
14945 Artikel
Admin1

Ich will Textdateien einlesen und die Worthäufigkeit ermitteln (zwecks einfachem Spamfilter).

Mein Testschnippsel:

Code (perl): (dl )

#/usr/bin/perl -w

use strict;
use warnings;

my %words;
my @blacklist_entries = qw( insurance Sxx porn buy viagra ZENIC Möbelkauf Bußgeld Führerschein);

sub checkSpam {
        my $line = shift;
        foreach my $spam_word (@blacklist_entries) {
                while ($line =~ 
                        /(?<=^|\b)\Q$spam_word\E(?=\b|$)/ig # Wort beginnt mit Zeilenanfang und/oder wird mit Wortbegrenzer getrennt
                      ) 
                { 
                        $words{$spam_word}++;
                }
        }
}

while (my $line = <DATA>) {
        checkSpam($line);
}

while (my ($key, $value) = each %words) {
        print "$key=$value\n";
}

__DATA__
Das ist ein VIAGRA Text für Viagra.
ViaGrA or Zenic BuY thS!

$VIAGRA! 
************ Möbelkauf ganz billig.
$VIAGRA
$VIAGRA:
schnellstmöglich Bußgeld Führerschein neu!
pOr N.

    POrn---------.
 :sxx: download

porN.

vIaGrH.

Ist das Regex so sinnvoll?
Übersehe ich gerade eine Falle bei bestimmten Wörtern?
Gibt es eine schnellere Lösung?

//EDIT:
Die Wortlisten kommen später aus Textdateien oder einer Datenbank.
Die Textdaten kommen aus großen Textdateien, Datenbanken oder auch CGI-Daten.
Last edited: 2010-10-07 13:21:50 +0200 (CEST)

die Drachin Gwen

Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten