Thread Wortsegmentierer: Modul?
(15 answers)
Opened by pktm at 2006-06-27 01:56
Jaja, so mal eben mit RegEx und Splitten an \w oder \s geht es nicht.
Diverse Ausnahmen werden vorher abgefangen und getaggt (z.B. Daten, Namen - soweit überhaupt möglich, Kompisita und diverse Strukturen wie Zitate, wörtliche Rede, Klammern). Geht man also davon aus, dass man einen Text hat, der voll von "Ausnahmen" befreit ist würde die obige RegEx greifen. Aber einen solchen Text gibt es höchstens in linguistischen Korpora, nicht in der Realität. Ich hatte gehofft, vielleicht ein Modul zu finden, dass mir ein bischen Arbeit abnimmt. Text::ParseWords hat sich als ungeeignet erwiesen. Die anderenmuss ich noch testen. http://www.intergastro-service.de (mein erstes CMS :) )
|