Nur einen Buchstaben in Buchstabenkombination ersetzen (Allgemeines zu Perl)

[thread]17913[/thread]

Nur einen Buchstaben in Buchstabenkombination ersetzen

Tags: perl5 regex reguläre Ausrücke ersetzen Ähnliche Threads

Leser: 25

Articles: hide open all | hide show old branches

+16 replies
Gast Gast

2012-11-17 17:22

Hallo Leute,

ich hoffe, hier kann mir jemand helfen.

Es geht um das Folgende:
Ich habe ein Wort (nehmen wir hier einfach mal 'atan') und die Bedingung "t/d/a_a" (beides vom Benutzer angegeben). Bedeutet, dass ein im Wort vorhandenes "t" zu "d" wird, wenn es zwischen zwei "a"s steht (der Unterstrich in dem Stück nach dem zweiten Slash ist also der Buchstabe vor dem ersten Slash). Ich erstelle also eine Bedingung für einen regulären Ausdruck, die den Unterstrich durch das erste Zeichen ersetzt (also "a_a" --> "ata"). Der einzusetzende String ist dasselbe, diesmal nur mit dem Zeichen zwischen den beiden Slashes (also "ada").
Jetzt setze ich beides in einen regulären Ausdruck ($wort =~ s/ata/ada/). Soweit ist es eigentlich nicht problematisch.

Wenn ich jetzt aber das ganze so formuliere "t/d/[aeiou]_[aeiou]/" (d.h. "t" wird zu "d" zwischen Vokalen), dann krieg ich ein Problem. Nehmen wir ein anderes Wort wie z.B. 'etis'. Der im Wort zu suchende String ist also "[aeiou]t[aeiou]". Jetzt möchte ich aber, dass der ersetzende String genau dieselben Vokale beinhaltet wie der zu ersetzende. Hier würde in dem Wort also "eti" gefunden werden, aber wie mach ich es nun, dass der ersetzende String "edi" lautet, also im Prinzip nur den einen Buchstaben austauscht. Ich kann ja nicht schreiben "$wort =~ s/[aeiou]t[aeiou]/[aeiou]d[aeiou]/".

Ich hoffe, das war einigermaßen verständlich. Danke schon mal für die Hilfe.

PS: Bin übrigens noch nicht lange dabei mit Perl :P
Last edited: 2012-11-17 17:49:54 +0100 (CET)
- +2 replies
- topeg
  
  2012-11-17 18:04
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  benutze Lookahead und Lookbehind:
  
  Code (perl): (dl )
  
  $wort =~ s/(?<=[aeiou])t(?=[aeiou])/d/
  - FIFO
    
    2012-11-17 18:12
    
    User since
    2005-06-01
    469 Artikel
    BenutzerIn
    
    Deine RegEx matcht Vokal-t-Vokal, ~~ich glaube der/die OP meint ein t, das zu beiden Seiten denselben Vokal hat.~~
    
    edit "Jetzt möchte ich aber, dass der ersetzende String genau dieselben Vokale beinhaltet wie der zu ersetzende." - Das habe ich wohl falsch verstanden ...
    Last edited: 2012-11-17 21:35:03 +0100 (CET)
    Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"
- +13 replies
- FIFO
  
  2012-11-17 18:09
  User since
  2005-06-01
  469 Artikel
  BenutzerIn
  ~~oder~~ Du benutzt die Rückwärts-Referenz:
  
  Code (perl): (dl )
  
  $wort =~ s/([aeiou])t\1/$1d$1/;
  
  Erklärung:
  Die () erzeugen eine Gruppierung, auf deren Inhalt man innerhalb des Suchmusters mittels \1 (= 1. Gruppe) und außerhalb des Suchmusters - also auch im Ersetzungsteil - mit $1 zugreifen kann.
  
  Editiert von FIFO: Erklärung ergänzt
  Last edited: 2012-11-17 18:19:37 +0100 (CET)
  Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"
  - +12 replies
  - Gast Gast
    
    2012-11-17 20:57
    
    Hallo, danke schon mal für die vielen Vorschläge, aber ich muss trotzdem noch mal nachfragen.
    Es ist so, dass der Benutzer eine/mehrere Kategorie(n), eine/mehrere Bedingungen und ein/mehrere Wort/Wörter eingibt. Eine Kategorie wäre z.B. "V=aeiou". Eine Regel z.B. "t/d/_V" ("t" wird zu "d", wenn es vor einem Vokal aus der Kategorie steht) oder "t/d/V_V" ("t" wird zu "d", wenn es zwischen zwei beliebigen Vokalen aus der Kategorie steht, egal ob sie gleich sind oder nicht). Ein Wortbeispiel wäre "nitar", das zu "nidar" werden müsste, weil es zwischen "i" und "a" steht, die beide in Kategorie V zu finden sind.
    Also:
    1) Kategorie: V=aeiou
    2) Regel: t/d/_V oder eine andere Regel: t/d/V_V
    3) Wort: nitar (müsste dann am Ende 'nidar' sein)
    Nun bräuchte ich einen Code, der einen Laut in einer bestimmten Umgebung durch einen anderen Laut austauscht. Die großen Buchstaben für Kategorien müssen dabei immer berücksichtigt werden.
    Vllt. zur Verdeutlichung noch ein Beispiel:
    1) Kategorien: V=aeiou, P=pbtdkg
    2) Regel: k/g/V_rP
    3) Wörter: 'akrta' und 'akuta'
    Das Wort 'akrta' müsste also verändert werden, weil der ursprüngliche Laut "k" nach einem Laut aus V und vor dem Laut "r" und einem Laut aus P steht.
    
    Wenn nicht deutlich ist, was ich meine, bitte einfach nachfragen ;)
    
    Danke schon mal für die Hilfe.
    Last edited: 2012-11-17 21:15:13 +0100 (CET)
    - +11 replies
    - topeg
      
      2012-11-17 21:37
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Mit Lookahead (?= ... ) und Lookbehind (?<= ... ) kann man das alles machen:
      Regel "t/d/_V" und "t/d/V_V";
      
      Code (perl): (dl )
      
      $wort =~ s/(?<=[aeiou])?t(?=[aeiou])/d/ig
      
      Regel "k/g/V_rP"
      
      Code (perl): (dl )
      
      $wort =~ s/(?<=[aeiou])k(?=r[pbtdkg])/g/ig
      - +10 replies
      - Gast Gast
        
        2012-11-17 21:44
        
        Ok, danke ;) Nun geht es mir darum, dass ich im Code sozusagen eine allgemeine Variante davon stehen haben möchte, sodass der Benutzer jede beliebige Regel eingeben kann, ohne vorher den regulären Ausruck im Code zu manipulieren. Die zwei regulären Ausdrücke von Dir sind ja beschränkt auf die Regel, die ich angegeben habe.
        Last edited: 2012-11-17 22:05:29 +0100 (CET)
        
        +9 replies
        
        FIFO
        
        2012-11-17 22:44
        
        User since
        2005-06-01
        469 Artikel
        BenutzerIn
        
        Mal als Ansatz, die Mustergenerierung ist der Übersicht halber in eine sub ausgelagert.
        Es findet keinerlei Prüfung der Benutzereingaben statt, d.h. die Regel muss das Format <ersetze_was>/<ersetze_durch>/<Muster> haben.
        Das Muster muss die einfache Struktur mit einem Unterstrich als Platzhalter haben.
        Wenn Du das Prinzip verstanden hast, sind Erweiterungen für Dich schaffbar ;)
        edit: Diese simple Variante hat ihre Tücken, so darf innerhalb der Regeln und Kategorien kein sog. Metazeichen stehen (z.B. ) oder *). Für weitergehende Experimente müsstest Du Dich mit quotemeta(), qr() und Konsorten beschäftigen.
        Ein gutes Regex-Tutorial (Englisch) gibt es z.B. hier.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
        
        use warnings; use strict; $| = 1; my @categories = ( 'V=aeiou', 'P=pbtdkg' ); while (1) { print "Text: "; my $text = <STDIN>; chomp($text); last if ! $text; # Leere Eingabe beendet Schleife print "Regel: "; my $rule = <STDIN>; chomp($rule); last if ! $rule; my ($search, $replace) = build_regex($rule); $text =~ s/$search/$replace/g; print "\nMuster: $search\n\nNach Ersetzung: $text\n\n"; } sub build_regex { # build_regex($rule); my ($to_replace, $replace_with, $pattern) = split('/', $_[0]); for my $category (@categories) { my ($type, $class) = split('=', $category); $pattern =~ s/$type/[$class]/g; } $pattern =~ s/(.+)_/(?<=$1)_/; $pattern =~ s/_(.+)/_(?=$1)/; $pattern =~ s/_/$to_replace/; # <--- edit return ($pattern, $replace_with); } __END__
        
        Beispieldurchlauf:
        
        Code: (dl )
        
        1 2 3 4 5 6
        
        Text: akrta Regel: k/g/V_rP Muster: (?<=[aeiou])k(?=r[pbtdkg]) Nach Ersetzung: agrta
        
        Editiert von FIFO: $pattern-Bearbeitung korrigiert
        Last edited: 2012-11-18 10:23:34 +0100 (CET)
        Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"
        
        +8 replies
        
        Gast Gast
        
        2012-11-18 00:46
        
        Super, das hat geholfen ;)
        
        Dann stell ich gleich mal noch zwei kurze Fragen.
        
        Wenn ich die Kategorien "S=ptk" und "Z=bdg" habe und die Bedingung "S/Z/_", dann heißt das: "Ersetze "p" durch "b", "t" durch "d" und "k" durch "g" ". Das heißt, ich will den ersten Laut von S durch den ersten von Z ersetzen lassen. Ist beispielsweise ein "t" (zweite Position von S), dann soll es durch "d" (zweite Position von Z) ersetzt werden. Wie stelle ich das an?
        
        Und die zweite Sache: Der Benutzer setzt in der Bedingung etwas in eckige Klammern (z.B. "[sm]//_[zn]" --> "s" und "m" fallen weg, wenn sie vor "z" oder "n" stehen, ist also nicht das gleiche wie "sm//_zn"). Mit den eckigen Klammern will ich also sozusagen eine Wahl andeuten. Man könnte die o.g. Bedingung auf aufsplitten, aber das wäre dann zu unökonomisch (vier Bedingungen anstelle von einer --> "s//_z", "s//_n", "m//_z" und "m//_n"). Wie bekomme ich es hin, dass beispielsweise die folgenden Wörter umgewandelt werden:
        1) asna -> ana
        2) amna -> ana
        3) asza -> aza
        4) amza -> aza
        
        Noch mal danke im Voraus ;)
        Last edited: 2012-11-18 02:07:43 +0100 (CET)
        
        +7 replies
        
        FIFO
        
        2012-11-18 08:54
        
        User since
        2005-06-01
        469 Artikel
        BenutzerIn
        
        Dein zweites Problem hätte mit dem Skript schon funktioniert, wäre dieses fehlerfrei gewesen ;) Die Bearbeitung von $pattern in der sub muss in drei Schritte zerlegt werden (vgl. edit).
        
        Deine erste Frage ist ein Fall für tr///, allerdings musst Du beachten, dass hier keine Variableninterpolation stattfindet, daher die eval-Konstruktion. Um diesen Sonderfall abzubilden, werden die Kategorien erst in einem Hash abgelegt, so dass man aus den keys ein Suchmuster bauen kann, das alle Kategorie-Typen enthält.
        Jetzt kannst Du natürlich jeden Sonderfall einzeln programmieren. Sinnvoll wäre es, zuerst die Benutzerschnittstelle (erlaubte Eingaben) wirklich festzulegen. Einzelfall-Programmierung ist immer schlecht zu ändern/erweitern.
        
        Alles ist nach wie vor ohne Fehlerprüfungen! Es ist insbesondere sehr problematisch, User-Eingaben direkt als RegEx zu verwenden, wer böse ist, kann Dir hier einiges ruinieren. Ein gescheites Parsen der Eingaben ist also unabdingbar! btw: Was machst Du, wenn "normale" Großbuchstaben mit Deinen Kategorien kollidieren?
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
        
        use warnings; use strict; $| = 1; my @categories = ( 'V=aeiou', 'P=pbtdkg', 'N=12345' ); my %categ_hash = map { split /=/ } @categories; # ('V' => 'aeiou', ...) my $categ_types = join('', keys %categ_hash); # 'VPN' my $categ_types_rx = qr{ \A [$categ_types] \z }x; # \A[VPN]\z while (1) { print "Text: "; my $text = <STDIN>; chomp($text); last if ! $text; print "Regel: "; my $rule = <STDIN>; chomp($rule); last if ! $rule; my $rule_err = rule_check($rule); if ($rule_err) { print "Regel fehlerhaft: $rule_err\n"; next; } my $processed_text = process_text($text, $rule); print "\nNach Ersetzung: $processed_text\n\n"; } sub rule_check { my $rule = shift; # Hier Regelsyntax prüfen! return 0; # fehlerfrei } sub process_text { # build_regex($rule); my ($text, $rule) = @_; my ($to_replace, $replace_with, $pattern) = split('/', $rule); my $processed = $text; # Sonderfall translate (z.B. Regel V/N/_), das $pattern wird ignoriert if ($to_replace =~ $categ_types_rx and $replace_with =~ $categ_types_rx) { $to_replace = $categ_hash{$to_replace}; $replace_with = $categ_hash{$replace_with}; print ("tr/$to_replace/$replace_with/\n"); if (length($to_replace) != length($replace_with)){ warn "Ungleiche Zeichenzahl in Kategorien.\n"; } else { local $_ = $processed; eval "tr/$to_replace/$replace_with/"; $processed = $_; } return $processed; } for my $category (@categories) { my ($type, $class) = split('=', $category); $pattern =~ s/$type/[$class]/g; $to_replace =~ s/$type/[$class]/g; } $pattern =~ s/(.+)_/(?<=$1)_/; $pattern =~ s/_(.+)/_(?=$1)/; $pattern =~ s/_/$to_replace/; $processed =~ s/$pattern/$replace_with/g; return $processed; } __END__
        
        Alles wie gesagt noch sehr schlicht. Denkbar wären z.B. noch Regeln wie V/N/_P (bislang wird das '_P' ignoriert, viel Spaß beim Programmieren :)
        
        Beispiele:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10
        
        Text: mater Regel: V/N/_ tr/aeiou/12345/ Nach Ersetzung: m1t2r Text: amna Regel: [sm]//_[mn] Nach Ersetzung: ana
        
        Editiert von FIFO: typo
        Last edited: 2012-11-18 09:06:41 +0100 (CET)
        Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"
        
        +6 replies
        
        Gast Gast
        
        2012-11-18 15:22
        
        Puh, das hat schon weiter geholfen ;)
        Nur jetzt bin ich wieder auf ein Problem gestoßen -.-
        Wenn ich z.B. die drei Kategorien
        1) V=aeiou
        2) S=ptc
        3) Z=bdg
        habe, mit der Bedingung
        - S/Z/V_V (Element aus S wird zu Element Z zwischen zwei Vokalen, egal ob
        dieselben oder unterschiedliche)
        und dem Wort
        - lector,
        dann kommt da "legdor" raus, obwohl es sich eigentlich nicht verändern sollte.
        Das heißt, das Programm soll nach einem der Buchstaben aus S suchen, wenn dort also zwei oder mehr stehen, soll es die Regel nicht anwenden :/
        
        Und wie Du schon gesagt hast, gibt es auch Regeln wie "V/N/_P" (Element aus V wird zu Element aus N, wenn es vor Element aus P steht) oder auch "V/N/P_T" usw. Ich hab scheinbar noch zu wenig Erfahrung und Wissen, um das richtig zu programmieren -.- Beschäftige mich gerade seit ein paar Wochen mit Perl. Wäre also nett, wenn Du mir dabei auch helfen könntest :/
        
        Vielen Dank schon mal.
        Last edited: 2012-11-18 15:38:44 +0100 (CET)
        
        +2 replies
        
        pq
        
        2012-11-18 15:56
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        Guest Gast
        Beschäftige mich gerade seit ein paar Wochen mit Perl.
        
        dann nutze ich mal die gelegenheit, um auf http://perl-tutorial.org/ hinzuweisen. z.b. modern perl - the book. und um dem mal vorzubeugen, dass tutorials wohl heute als altmodisch angesehen werden:
        das sind echt krasse tutorials, und das beste ist, die gibts für lau. teilweise sind sogar videos(!) dabei.
        speziell zu regexes findest du was unter perlretut. geile sache.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        Gast Gast
        
        2012-11-18 18:22
        
        Viele Dank, vor allem die Perldoc Seite hatte ich mir schon angeschaut, aber ich kommt trotzdem nicht weiter. Kann mir nicht jemand helfen und mit einen Codevorschlag machen?
        Last edited: 2012-11-18 18:35:03 +0100 (CET)
        
        +3 replies
        
        FIFO
        
        2012-11-18 20:27
        
        User since
        2005-06-01
        469 Artikel
        BenutzerIn
        
        Guest Gast
        Nur jetzt bin ich wieder auf ein Problem gestoßen -.-
        Wenn ich z.B. die drei Kategorien
        1) V=aeiou
        2) S=ptc
        3) Z=bdg
        habe, mit der Bedingung
        - S/Z/V_V (Element aus S wird zu Element Z zwischen zwei Vokalen, egal ob
        dieselben oder unterschiedliche).
        und dem Wort
        - lector,
        ...
        
        Das ist das, was ich oben meinte: Statt einzelnen "Problemen" hinterher zu programmieren, zuerst eine möglichst vollständie Regelsyntax aufstellen.
        Du stellst sonst nämlich schnell fest, dass die oben gezeigte Herangehensweise sich evtl. garnicht so gut erweitern lässt.
        Die wesentliche Arbeit beim Problemlösen durch Programmieren ist die Beschreibung des Problems in einer Weise, die eine Abbildung in Programmschritten/-teilen ermöglicht.
        Um mit Perl zu beginnen, ist ein eigener Parser für linguistische (?) Zwecke - naja: ambitioniert.
        
        Editiert von FIFO: typo
        Last edited: 2012-11-18 21:49:14 +0100 (CET)
        Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"
        
        +2 replies
        
        Gast Gast
        
        2012-11-18 20:49
        
        Ok, klingt auch logisch, aber (ist vielleicht eine blöde Frage) wie kann ich denn an das Problem rangehen und sozusagen eine allgemeine "Formel" finden? :/
        Last edited: 2012-11-18 20:54:03 +0100 (CET)
        
        topeg
        
        2012-11-18 21:46
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Was ich machen würde:
        
        Sammle alle benötigten Regeln.
        Gruppiere sie nach Ähnlichkeit.
        Zerlege sie in Teilregeln so dass jede Regel der Gruppe aus den Teilregeln zusammen gesetzt werden kann.
        Wiederhole es so lange bis keine Ähnlichkeit mehr zwischen den Teilregeln existieren und alle Regeln aus den Teilregeln erzeugt werden können.
        
        Damit hast du deine "Basis-Befehle" mit denen du alle Regeln zusammensetzten kannst. Implementiere diese Regeln und schreibe ein Handbuch wie man Regeln zusammenbaut.
        
        Alternativ für einen Anfänger:
        
        Sammle alle benötigten Regeln.
        Starre darauf bis dir eine Idee kommt
        Implementiere es
        Finde die Fehler in deiner Idee
        wiederhole die Schritte 2-3 bis du ein zufriedenstellendes Ergebnis hast.

View all threads created 2012-11-17 17:22.