Thread Textnormalisierung...Hilfe! (18 answers)
Opened by Gast at 2008-06-26 17:45

KurtZ
 2008-06-26 19:39
#111570 #111570
User since
2007-12-13
411 Artikel
BenutzerIn
[default_avatar]
also zuerstmal finde ich Threadtitel mit "Hilfe!" kacke aber hier trotzdem mein Senf:

desweieteren hängts von der Regel ab, wenn du sagst

A) alle am Satzanfang großgeschriebenen Wörter die mal kleingeschrieben werden

kannst du es IMHO mit einer einzigen RegEx mit Lookahead schaffen.

Du greifts alle Wörter nach einem Statzendezeichen denen eine kleingeschriebene Version folgt ODER eine kleingeschriebene Version vorhergeht.

Wenn die Regel lautet:

B) alle am Satzanfang großgeschriebenen Wörter die sonst immer und mindestens einmal kleingeschrieben werden!

wirds mit einer RegEx viel schwieriger.

ich würde dann wie Vorgeschlagen eine Schleife mit Parser schreiben, der alle Nichtanfangswörter in ein "Gesehen"-Hash einträgt.

dann im zwoten Durchlauf alle Anfangswörter darauf überprüfen ob in dem gesehen-Hash eine kleingeschriebe Version steht und keine großgeschriebene.

wenn du wilst das dir jetzt hier jmd coden hilft, dann entscheide dich für A oder B oder gib eine neue C vor, RegExe bedeuten nämlich viel Testarbeit und die macht man ungern umsonst.

TMTOWTDYOG (there's more than one way to dig your own grave)

View full thread Textnormalisierung...Hilfe!