Thread Textnormalisierung...Hilfe! (18 answers)
Opened by Gast at 2008-06-26 17:45

KurtZ
 2008-06-26 19:59
#111575 #111575
User since
2007-12-13
411 Artikel
BenutzerIn
[default_avatar]
kleine Anmerkungen:

so wie %hash in Beitrag 9 aufgebaut wird werden auch Wörter am Satzanfang eingetragen. M.E. sollten nur solche Wörter normalisiert werden die nie in der Satzmitte groß geschreiben werden, schließlich unterscheidet die Großschreibung manchmal denn Sinn eines Wortes "der Krieg", "ich krieg' mich nicht ein" (ok Umgangssprache aber die Idee wird hoffentlich klar)

Später "Krieg war sein Geschäfft zu normalisieren" obwohl noch ein Satz wie "Verwundet kam er aus dem Krieg" steht wäre IMHO dumm. Dafür muss aber %hash (lieber %gesehen oder besser %mittiges_wort) sauber aufgebaut werden, am besten mit einer analogen RegEx zur späteren Ersetzungs-RegEx.

Desweitern ist der Punkt auch nicht das einzige Satzendezeichen das Großschreibung erzwingt.
TMTOWTDYOG (there's more than one way to dig your own grave)

View full thread Textnormalisierung...Hilfe!