Thread Wortsegmentierer: Modul?
(15 answers)
Opened by pktm at 2006-06-27 01:56
Besser ist diese Alternative, die an whitespace splittet, so dass Bindestriche oder Umlaute keine Schwierigkeiten machen:
@woerter = split /\s+/, $text; Je nach Verwendungszweck muss noch tokenized werden, um Sonderzeichen (Kommata, Punkte, klammern, Anführungszeichen...) zu entfernen - noch kleben diese am Wort. $wort =~ s/(.+)[\»\:\.\,\"\)\;\]]+$/$1/; $wort =~ s/^([\«\(\[\"]+)(.+)/$2/; Gruß, Pida |