Thread Tokenisierung (8 answers)
Opened by Beat at 2013-07-10 13:15

Gast Beat
 2013-07-10 13:15
#168794 #168794
Guten Tag, liebes Forum

Ich habe folgendes Problem: Einem grossen Skript möchte ich gerne die Option hinzufügen, dass wenn eine sich öffnende Klammer, ein paar Zeichen dazwischen, und eine sich schliessende Klammer mit einem folgenden Komma erkannt wird, dass dann das Komma gesplittet wird und als eigenes Token angesehen wird.
Schematisch: "(" + [irgendetwas] + ")" + "," sollte erkannt und nach der letzten Klammer getrennt werden,

Für Wörter, die gesplittet werden müssen, habe ich bereits ein funktionierender Aufruf:
Code: (dl )
1
2
3
4
if($line =~ m/^([^. \t]+\w\.)([A-Z][^ \240]*)/) # treats words that should be split
{
$line =~ s/(?<=[^. \t]\w\.)(?=[A-Z])/ /g;
}

In diesem Aufruf sollte eigentlich alles, was man braucht, vorhanden sein.
Wichtig ist nocht zu erwähnen, dass pro Zeile nur ein Wort (oder eben "("+...")"+(",") steht.

Wie könnte dazu eine entsprechende Abfrage aussehen?
Besten Dank.
Last edited: 2013-07-10 16:30:54 +0200 (CEST)

View full thread Tokenisierung