Thread Textnormalisierung...Hilfe! (18 answers)
Opened by Gast at 2008-06-26 17:45

Gast Gast
 2008-06-26 19:50
#111572 #111572
KurtZ+2008-06-26 17:39:46--
also zuerstmal finde ich Threadtitel mit "Hilfe!" kacke aber hier trotzdem mein Senf:

desweieteren hängts von der Regel ab, wenn du sagst

A) alle am Satzanfang großgeschriebenen Wörter die mal kleingeschrieben werden

kannst du es IMHO mit einer einzigen RegEx mit Lookahead schaffen.

Du greifts alle Wörter nach einem Statzendezeichen denen eine kleingeschriebene Version folgt ODER eine kleingeschriebene Version vorhergeht.

Wenn die Regel lautet:

B) alle am Satzanfang großgeschriebenen Wörter die sonst immer und mindestens einmal kleingeschrieben werden!

wirds mit einer RegEx viel schwieriger.

ich würde dann wie Vorgeschlagen eine Schleife mit Parser schreiben, der alle Nichtanfangswörter in ein "Gesehen"-Hash einträgt.

dann im zwoten Durchlauf alle Anfangswörter darauf überprüfen ob in dem gesehen-Hash eine kleingeschriebe Version steht und keine großgeschriebene.

wenn du wilst das dir jetzt hier jmd coden hilft, dann entscheide dich für A oder B oder gib eine neue C vor, RegExe bedeuten nämlich viel Testarbeit und die macht man ungern umsonst.




B) ist richtig. So hab ich das auch gemeint. Halt Wörter, die normalerweise immer kleingeschrieben werden und im Text mitten im Satz auch mindestens einmal kleingeschrieben vorkommen. Sonst würde der Ansatz ja nicht funktionieren.

@Linuxer

Habe grad deinen Ansatz ausprobiert. Das Problem dabei ist, jedes erste Wort eines Satzes wird durch das letzte Wort des gesamten Textes ersetzt. Also jeder Satz beginnt plötzlich immer mit dem gleichen Wort.

Entschuldigt bitte, ich bin noch im ersten Semester und versteh halt alles noch nicht so gut.

@ Gast da oben

Dein Ansatz ist sehr wirr, da steig ich nicht durch. Map- und Grep-Funktion hatten wir noch nicht im Kurs.

View full thread Textnormalisierung...Hilfe!