Thread Textnormalisierung...Hilfe! (18 answers)
Opened by Gast at 2008-06-26 17:45

Gast Gast
 2008-06-26 19:19
#111566 #111566
Linuxer+2008-06-26 17:13:59--
Anhand der Beschreibung denke ich an folgende Vorgehensweise:

- Text einmal durchsuchen nach kleingeschriebenen Wörter; Wörter in einem Index ablegen
- Text noch einmal parsen; für jedes Wort am Satzanfang ist dann gegen den Index zu prüfen, ob das Wort kleingeschrieben schon mal vorkam; wenn ja, dann ersetzen...

Edit:
Um pqs Ansatz aufzugreifen:
Natürlich gibt es dann immer noch das Problem, den Worttyp korrekt zu identifizieren:

Code: (dl )
Ruhe sanft . Die Ruhe vor dem Sturm . Er ruhe in Frieden . Ruhe ist's, was er sucht .


Wie soll nun entschieden werden, ob "Ruhe" am Satzanfang groß oder klein geschrieben werden soll?


Wenn du mir jetzt noch sagst, wie ich das in Perl implementieren kann, dann bin ich glücklich. :-)

Solche Ambiguitäten wie bei "Ruhe" sind hierfür irrelevant.

View full thread Textnormalisierung...Hilfe!