Thread Wortsegmentierer: Modul? (15 answers)
Opened by pktm at 2006-06-27 01:56

Dubu
 2006-06-27 21:05
#67651 #67651
User since
2003-08-04
2145 Artikel
ModeratorIn + EditorIn

user image
Naja, solche Negativlisten gefallen mir nicht besonders. Da vergisst man zu leicht etwas.
Wer Umlaute braucht, nimmt einfach "use locale", dann klappt's auch mit dem \w oder - noch besser - dem [:alpha:].

Dann wird's aber knifflig: Wenn man vermeiden möchte, dass aus einer Formulierung wie "be- und entladen" das Wort "be" extrahiert wird, braucht man mehr als eine zeichenbasierte Analyse.

Wenn ich oben "Grammatik" lese, dann scheint es mir doch eher um Informationsextraktion zu gehen. Da kenne ich leider kein Perl-Lösung, aber wenn der Anspruch höher ist und es auch Java sein darf, würde ich mal einen Blick auf das GATE-Projekt werfen.

View full thread Wortsegmentierer: Modul?