Thread Regex für Spamfilter bei Nicht-Ascii (33 answers)
Opened by GwenDragon at 2012-06-17 18:27

GwenDragon
 2013-06-17 15:30
#168365 #168365
User since
2005-01-17
14848 Artikel
Admin1
[Homepage]
user image
Habe jetzt auf Debian 6 alle locales installiert und locale-gen laufen lassen.

Kann mir jemand das erklären, dass Perl trotz setlocale nicht bei \b in Regexes greift?

root@srv22 ~ # locale
LANG=en_US.utf-8
LANGUAGE=
LC_CTYPE="en_US.utf-8"
LC_NUMERIC="en_US.utf-8"
LC_TIME="en_US.utf-8"
LC_COLLATE="en_US.utf-8"
LC_MONETARY="en_US.utf-8"
LC_MESSAGES="en_US.utf-8"
LC_PAPER="en_US.utf-8"
LC_NAME="en_US.utf-8"
LC_ADDRESS="en_US.utf-8"
LC_TELEPHONE="en_US.utf-8"
LC_MEASUREMENT="en_US.utf-8"
LC_IDENTIFICATION="en_US.utf-8"
LC_ALL=
root@srv22 ~ # locale -a | grep de_
de_AT
de_AT@euro
de_AT.iso88591
de_AT.iso885915@euro
de_AT.utf8
de_BE
de_BE@euro
de_BE.iso88591
de_BE.iso885915@euro
de_BE.utf8
de_CH
de_CH.iso88591
de_CH.utf8
de_DE
de_DE@euro
de_DE.iso88591
de_DE.iso885915@euro
de_DE.utf8
de_LI.utf8
de_LU
de_LU@euro
de_LU.iso88591
de_LU.iso885915@euro
de_LU.utf8
root@srv22 ~ # perl -w -E "use locale; use POSIX qw(locale_h); setlocale(LC_CTYPE,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/"
1
root@srv22 ~ # perl -w -E "use locale; use POSIX qw(locale_h); setlocale(LC_ALL,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/"
1
root@srv22 ~ #


//EDIT2:
Ist auch Debian 7.1 mit Perl 5.14.2 genauso
Code (perl): (dl )
setlocale(LC_ALL,'de_DE.utf8');
brachte auch nix.
Gleiches Ergebnis: \b matcht bei Umlauten :(
Last edited: 2013-06-17 18:30:22 +0200 (CEST)

View full thread Regex für Spamfilter bei Nicht-Ascii