Thread Wortsegmentierer: Modul? (15 answers)
Opened by pktm at 2006-06-27 01:56

Pida
 2006-06-27 23:35
#67657 #67657
User since
2006-06-09
52 Artikel
BenutzerIn
[default_avatar]
Von Modulen habe ich leider gar keine Ahnung... aber sag' doch mal ein bisschen was zu deiner Problemstellung. Bei den meisten deiner "Ausnahmen" kann ich nicht nachvollziehen, wo du ein Problem siehst... am ehesten noch bei den Namen, wenn du diese nicht als Worte ansehen möchtest.
Und es muss natürlich geklärt sein, welche Voraussetzungen auf Seiten des Textes vorliegen. Soll etwa der Fehler in renees Beispiel toleriert werden? Und natürlich: Was ist ein Wort?

Ein simples Splitten an whitespace + Tokenisierung + Entfernung dessen, was kein Wort ist mit einer RegEx hat schon eine ziemlich hohe Trefferquote. Funktionierte bei einem kleinen Testlauf ohne Fehler.

Gruß, Pida

View full thread Wortsegmentierer: Modul?