Thread Regex für Spamfilter bei Nicht-Ascii
(33 answers)
Opened by GwenDragon at 2012-06-17 18:27
Habe jetzt auf Debian 6 alle locales installiert und locale-gen laufen lassen.
Kann mir jemand das erklären, dass Perl trotz setlocale nicht bei \b in Regexes greift? root@srv22 ~ # locale LANG=en_US.utf-8 LANGUAGE= LC_CTYPE="en_US.utf-8" LC_NUMERIC="en_US.utf-8" LC_TIME="en_US.utf-8" LC_COLLATE="en_US.utf-8" LC_MONETARY="en_US.utf-8" LC_MESSAGES="en_US.utf-8" LC_PAPER="en_US.utf-8" LC_NAME="en_US.utf-8" LC_ADDRESS="en_US.utf-8" LC_TELEPHONE="en_US.utf-8" LC_MEASUREMENT="en_US.utf-8" LC_IDENTIFICATION="en_US.utf-8" LC_ALL= root@srv22 ~ # locale -a | grep de_ de_AT de_AT@euro de_AT.iso88591 de_AT.iso885915@euro de_AT.utf8 de_BE de_BE@euro de_BE.iso88591 de_BE.iso885915@euro de_BE.utf8 de_CH de_CH.iso88591 de_CH.utf8 de_DE de_DE@euro de_DE.iso88591 de_DE.iso885915@euro de_DE.utf8 de_LI.utf8 de_LU de_LU@euro de_LU.iso88591 de_LU.iso885915@euro de_LU.utf8 root@srv22 ~ # perl -w -E "use locale; use POSIX qw(locale_h); setlocale(LC_CTYPE,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/" 1 root@srv22 ~ # perl -w -E "use locale; use POSIX qw(locale_h); setlocale(LC_ALL,'de_DE.utf-8'); say 'betätigt' ~~ /bet\b/" 1 root@srv22 ~ # //EDIT2: Ist auch Debian 7.1 mit Perl 5.14.2 genauso Code (perl): (dl
)
setlocale(LC_ALL,'de_DE.utf8'); Gleiches Ergebnis: \b matcht bei Umlauten :( Last edited: 2013-06-17 18:30:22 +0200 (CEST) |