Thread Textnormalisierung...Hilfe!
(18 answers)
Opened by Gast at 2008-06-26 17:45 Gast+2008-06-26 17:17:34-- Also ein vielversprechender Ansatze wäre, den Text erst in Tokens zu zerlegen. Ein Token ist in deinem Fall ein Wort oder ein Satzzeichen. Dann läufst du deine Tokens, und schaust bei jedem Wort, ob es vor einem Satzzeichen oder am Anfang des Strings steht. Wenn das nicht der Fall ist, speicherst du das in einem Hash. Dann gehst du nochmal durch die Tokens, und ersetzt alles, was du ersetzten willst. Auf diese Art kannst du was, was in Regexes kompliziert ist (also z.B. Lookaround und andere Art von Kontextsensitivität) vermeiden und es stattdessen in normalem Code machen. Dann brauchst du nur noch Regexes, um den String in Tokens zu zerlegen. |