Thread Wortsegmentierer: Modul? (15 answers)
Opened by pktm at 2006-06-27 01:56

Gast Gast
 2006-06-27 20:00
#67650 #67650
Besser ist diese Alternative, die an whitespace splittet, so dass Bindestriche oder Umlaute keine Schwierigkeiten machen:

@woerter = split /\s+/, $text;

Je nach Verwendungszweck muss noch tokenized werden, um Sonderzeichen (Kommata, Punkte, klammern, Anführungszeichen...) zu entfernen - noch kleben diese am Wort.

$wort =~ s/(.+)[\»\:\.\,\"\)\;\]]+$/$1/;
$wort =~ s/^([\«\(\[\"]+)(.+)/$2/;

Gruß, Pida

View full thread Wortsegmentierer: Modul?