Thread Regex für Spamfilter bei Nicht-Ascii (33 answers)
Opened by GwenDragon at 2012-06-17 18:27

Linuxer
 2013-06-17 22:27
#168392 #168392
User since
2006-01-27
3882 Artikel
HausmeisterIn

user image
Hm, guter Punkt.

Hab gerade noch mal mit dem System-Perl (5.12.4) getestet. Da schlagen alle drei Varianten fehl...

Code: (dl )
1
2
3
4
5
6
7
8
9
$ /usr/bin/perl -v | grep version
This is perl 5, version 12, subversion 4 (v5.12.4) built for x86_64-linux
$ /usr/bin/perl -w -E "use locale; use POSIX qw(locale_h); setlocale(LC_CTYPE,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/"
1
$ /usr/bin/perl -w -E "use POSIX qw(locale_h); setlocale(LC_CTYPE,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/"
1
$ /usr/bin/perl -w -E "say 'betätigt' ~~ /bet\b/"
1
$


Unicode-Bug? Gut möglich...

edit:
Hab noch ein 5.14.2 gefunden; klappt auch nicht:

Code: (dl )
1
2
3
4
5
6
7
8
9
$ perl -v | grep version
This is perl 5, version 14, subversion 2 (v5.14.2) built for x86_64-linux
$ /usr/bin/perl -w -E "use locale; use POSIX qw(locale_h); setlocale(LC_CTYPE,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/"
1
$ /usr/bin/perl -w -E "use POSIX qw(locale_h); setlocale(LC_CTYPE,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/"
1
$ /usr/bin/perl -w -E "say 'betätigt' ~~ /bet\b/"
1
$

Last edited: 2013-06-17 22:30:47 +0200 (CEST)
meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!

View full thread Regex für Spamfilter bei Nicht-Ascii