Thread Textnormalisierung...Hilfe! (18 answers)
Opened by Gast at 2008-06-26 17:45

Gast Gast
 2008-06-26 19:17
#111565 #111565
pq+2008-06-26 17:05:58--
also solltest du erstmal sagen, wie du bestimmen willst, ob etwas kleingeschrieben werden muss oder nicht.


Das hab ich doch eigentlich schon. ;-)

Wenn ein bestimmtes Wort innerhalb eines Satzes (also nicht am Satzanfang) immer kleingeschrieben wird, und es taucht plötzlich am Satzanfang auf, ist aber da großgeschrieben, dann soll Perl dieses Wort am Satzanfang in Kleinbuchstaben umwandeln. So benötigt man keinerlei sprachliches Wissen.

Natürlich kann man mit so einer Methode nicht 100%-ig alles richtig umformen, aber in der Computerlinguistik werden Probleme selten zu 100% gelöst, weil Sprache halt ein sehr komplexes Gebilde ist.

Also mal eine Überlegung von mir:

Zunächst könnte man doch alle verschiedenen kleingeschriebenen Wörter im Text in einem Hash ablegen, in etwa so:

Code (perl): (dl )
1
2
3
4
5
my %hash;

if ($text =~ /(\b[a-zäöüß]+\b)/g) {
               $hash{$1}++;
}


Jetzt möchte ich nur alle Wörter am Satzanfang betrachten, also alle großgeschriebenen Wörter, die nach einem Punkt kommen. Wenn ein solches Wort identisch ist mit einem Wort aus dem Hash und sich nur in der Schreibung unterscheidet, dann soll dieses Wort am Satzanfang eben kleingeschrieben werden. Aber ich weiß nicht, ob sowas a) geht und b) wies geht. Meine Versuche warn bisher erfolglos.

View full thread Textnormalisierung...Hilfe!