Reguläre Sprache (Allgemeines zu Perl)

[thread]14904[/thread]

Reguläre Sprache

Leser: 27

Articles: hide open all | hide show old branches

Teilbaum:
Reguläre Sprache (20 Artikel) 2010-04-06 17:02

+21 replies
bianca

2010-04-06 11:07

User since
2009-09-13
7016 Artikel
BenutzerIn

2010-04-06T08:48:04 esskar
Dazu kommt auch noch, das HTML (anders zu XML) keine reguläre Sprache ist, wodurch sie sich recht schlecht durch einen regulären Ausdruck ausdrücken lässt.

Das verstehe ich nun wiederum nicht.
Regulär = Regelung/die Regeln/etwas regeln, oder?
Wieso sagst Du, dass HTML nicht nach Regeln geht?

Edit:
Dass die manchmal anders ausfallen z.B. <a href="..." target="..."> ist gleich zu <a target="..." href="..."> bedeutet doch nicht, dass es keine Regeln gibt.
Oder was meinst Du?

mod-edit pq: teilbaum
Last edited: 2010-04-06 17:02:41 +0200 (CEST)
10 print "Hallo"
20 goto 10
- +20 replies
- esskar
  
  2010-04-06 11:12
  
  User since
  2003-08-04
  7321 Artikel
  ModeratorIn
  
  erst googeln, dann fragen: http://www.iti.fh-flensburg.de/lang/theor/regulaer... http://de.wikipedia.org/wiki/Regul%C3%A4re_Sprache
  - +19 replies
  - bianca
    
    2010-04-06 11:33
    
    User since
    2009-09-13
    7016 Artikel
    BenutzerIn
    
    Und was hat das mit HTML zu tun?
    10 print "Hallo"
    20 goto 10
    - +18 replies
    - esskar
      
      2010-04-06 11:55
      
      User since
      2003-08-04
      7321 Artikel
      ModeratorIn
      
      HTML ist per definition keine reguläre sprache, kann also daher nicht durch einen regulären ausdruck dargestellt werden.
      - +14 replies
      - bianca
        
        2010-04-06 12:20
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-06T09:55:07 esskar
        HTML ist per definition keine reguläre sprache, kann also daher nicht durch einen regulären ausdruck dargestellt werden.
        
        esskar, ich finde Deine Aussage gerade ziemlich kontra.
        
        Einerseits wird hier Regex empfohlen, um aus HTML Dinge rauszuziehen und andererseits kommst Du mit der Aussage, man könne mit Regex kein HTML darstellen, weil es keine reguläre Sprache ist.
        
        Was soll ein Anfänger denn damit anfangen?
        
        Wenn Du der Meinung bist, er sollte für sein Anliegen keine Regex verwenden, beschreibe das doch bitte für ihn ein wenig und gib ihm passende Beispiele.
        Ansonsten schlage ich vor, Du machst mal deutlich, was Du ansonsten aussagen möchtest.
        Danke Dir
        10 print "Hallo"
        20 goto 10
        
        +11 replies
        
        esskar
        
        2010-04-06 12:35
        
        User since
        2003-08-04
        7321 Artikel
        ModeratorIn
        
        ich hab keine regulären ausdrücke empfohlen oder?
        ich wollte eigentlich nur verdeutlichen, dass es ungeschickt ist, sich auf einen regulären ausdruck zu verlassen, wenn man es nicht mit einer regulären sprache zu tun hat. leider verstehst du den zusammenhang noch nicht. viel lesen und üben hilft da manchmal.
        
        HTML::TokeParser und HTML::TableExtract nutz ich übriegens für html parserei.
        
        +10 replies
        
        bianca
        
        2010-04-06 12:45
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-06T10:35:27 esskar
        ich hab keine regulären ausdrücke empfohlen oder?
        
        Hat keiner behauptet, oder?
        
        2010-04-06T10:35:27 esskar
        ich wollte eigentlich nur verdeutlichen, dass es ungeschickt ist, sich auf einen regulären ausdruck zu verlassen, wenn man es nicht mit einer regulären sprache zu tun hat. leider verstehst du den zusammenhang noch nicht.
        
        Ich habe auch nicht von Anfang an Regex empfohlen sondern Module. Auf Regex kamen wir erst, als vito explizit gefragt hat, wie man soetwas machen kann. Dass dies nicht "vernünftig" ist, hat er ja nun ausreichend gesagt bekommen, auch schon vor Deinen Einwürfen.
        
        Insofern nochmal Apell an Dich: Wie lautet Deine Antwort auf vito's Frage, wie man soetwas macht, um es inhaltlich zu verstehen was da vor sich geht (also ohne Module)? Dazu hast Du bisher nur gesagt, nicht mir Regex. Aber wie sonst?
        
        2010-04-06T10:35:27 esskar
        viel lesen und üben hilft da manchmal.
        
        Finde Deine Sticheleien unnötig.
        
        2010-04-06T10:35:27 esskar
        HTML::TableExtract nutz ich übriegens für html parserei.
        
        Ich auch, übrigens.
        10 print "Hallo"
        20 goto 10
        
        +9 replies
        
        esskar
        
        2010-04-06 13:00
        
        User since
        2003-08-04
        7321 Artikel
        ModeratorIn
        
        naja, du hattest doch vorher geschrieben:
        
        2010-04-06T10:20:47 bianca
        Einerseits wird hier Regex empfohlen, um aus HTML Dinge rauszuziehen und andererseits kommst Du mit der Aussage, man könne mit Regex kein HTML darstellen, weil es keine reguläre Sprache ist.
        
        Was soll ein Anfänger denn damit anfangen?
        
        eben genau das er nicht versuchen sollte, mit regulären ausdrucken html auszudrücken, weil ist einigen teilfällen wohl gut funktionieren kann, aber eben nicht in allen fällen.
        
        und eigentlich bist doch jetzt nur du, der die sache hier nicht versteht bzw. verstehen will/nachvollziehen kann, nach bohrt. der OT scheint ja zumindest alles nachvollziehen zu können, was hier so gepostet wird, bzw. macht sich die mühe, sich schlau zu machen bevor er ne unqualifizierte aussage trifft (nix gegen unqualifizierte aussagen). du hingegen hast dir nicht mal die mühe gemacht, den begriff "reguläre sprache" nachzuschlagen, sondern schlägst nur mit vorwürfen um dich, man würde hier nur irgendetwas antworten und den frager dumm sterben lassen.
        
        +8 replies
        
        bianca
        
        2010-04-06 13:10
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        Ich finde, jetzt wirst Du unsachlich.
        Aber da m.E. eh alles sachlich notwendige soweit gesagt ist und Du keine bessere Alternative zu Regex und Modulen anbieten willst, um z.B. dies hier zu beantworten
        
        Quote
        P.S.: Es ist zwar super lieb und großartig, wenn ihr mir ein kleines Programm schreibt, aber eigentlich wäre mir eine Erklärung wichtiger, denn ich hab in der zwischenzeit 4 "Bücher" zur Einführung in Perl, die mir alle erklären was ein assoziativer Array ist, wie man Bäume erstellt oder Listen sortiert aber irgendwie leider wenig zu meinem Problem HTML zu Parsen. Der Artikel von Renee geht zwar schon mehr in die Richtung an lehrreicher "Literatur" die ich suche, aber leider gibt es da wenig Erklärung und viel Code...
        
        "bohre" ich hier auch nicht weiter.
        
        Schade.
        10 print "Hallo"
        20 goto 10
        
        esskar
        
        2010-04-06 13:16
        
        User since
        2003-08-04
        7321 Artikel
        ModeratorIn
        
        :D
        
        +6 replies
        
        pq
        
        2010-04-06 13:23
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        warum sollte esskar verpflichtet sein, eine alternative zu regex und parser-modulen zu bieten?
        er hat die gründe genannt, warum man in den meisten fällen von regex absehen sollte, und parser benutzen sollte. fertig.
        wer das parsing verstehen will, sollte sich halt mal eins der module vorknöpfen, das ist eine wissenschaft für sich.
        nur weil esskar hier keinen grundkurs "wie schreibe ich einen parser" liefert, ist er jetzt der buhmann?
        
        parsen ist wie gesagt so trivial nicht (ich habe selbst - mit unterschiedlichen ansätzen - je einen parser für bbcode und einen für HTC geschrieben und weiss, wie eklig das ist, was man da alles beachten muss).
        wenn man den parser zu lernzwecken selber schreiben muss, sollte man sich vielleicht etwas allgemeinere lektüre besorgen, ansonsten reicht es, einfach eins der module zu benutzen.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +5 replies
        
        bianca
        
        2010-04-06 13:33
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-06T11:23:39 pq
        warum sollte esskar verpflichtet sein, eine alternative zu regex und parser-modulen zu bieten?
        
        Weil sich das meiner Meinung nach so gehört, dass man auch auf Fragestellungen eingeht und sagt, wie man es macht, wenn man sich schon genötigt fühlt zu wiederholen, wie man es vernünftigerweise NICHT macht.
        10 print "Hallo"
        20 goto 10
        
        GwenDragon
        
        2010-04-06 13:36
        
        User since
        2005-01-17
        14945 Artikel
        Admin1
        
        Es gibt mehrere Ansätze zu helfen:
        1. Beispiele/Fastlösungen posten
        2. Fragenden mit eigenem Programm probieren lassen und dann bei nachfolgenden Fragen/Problemen antworten
        3. Mischung aus 1. und 2.
        
        JedeR macht's anders.
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        +3 replies
        
        pq
        
        2010-04-06 13:41
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2010-04-06T11:33:40 bianca
        2010-04-06T11:23:39 pq
        warum sollte esskar verpflichtet sein, eine alternative zu regex und parser-modulen zu bieten?
        
        Weil sich das meiner Meinung nach so gehört, dass man auch auf Fragestellungen eingeht und sagt, wie man es macht, wenn man sich schon genötigt fühlt zu wiederholen, wie man es vernünftigerweise NICHT macht.
        
        nochmal:
        warum sollte esskar verpflichtet sein, eine alternative zu regex und parser-modulen zu bieten?
        er hat parser-module vorgeschlagen und fertig. postest du zu jedem modul, was du vorschlägst, den alternativen eigens entwickelten code? nein. also.
        
        ansonsten werd ich dich bei gelegenheit mal danach fragen. denn deiner meinung nach "gehört es sich ja so" =)
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +2 replies
        
        bianca
        
        2010-04-06 13:47
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-06T11:41:40 pq
        nochmal:
        warum sollte esskar verpflichtet sein, eine alternative zu regex und parser-modulen zu bieten?
        
        Auf Deine Verdrehungen der Dinge gehe ich jetzt aber nicht auch noch ein. Es steht alles weiter oben. Dort kann ein konstruktiv Interessierter es nachlesen.
        10 print "Hallo"
        20 goto 10
        
        pq
        
        2010-04-06 13:53
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2010-04-06T11:47:47 bianca
        Auf Deine Verdrehungen der Dinge gehe ich jetzt aber nicht auch noch ein.
        
        ach schade aber auch =)
        im zweifel verdreht der diskussionspartner alles. schon klar =)
        ich hatte nur eine einfach frage gestellt.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +2 replies
        
        GwenDragon
        
        2010-04-06 12:39
        
        User since
        2005-01-17
        14945 Artikel
        Admin1
        
        2010-04-06T10:20:47 bianca
        Einerseits wird hier Regex empfohlen, um aus HTML Dinge rauszuziehen
        Wer empfahl hier einen RegEx zum Extrahieren von HTML-Inhalten?
        Kann ich so nicht entdecken.
        
        //EDIT: Zitat defekt
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        bianca
        
        2010-04-06 12:48
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-06T10:39:49 GwenDragon
        Wer empfahl hier einen RegEx zum Extrahieren von HTML-Inhalten?
        
        Indirekt ich im Beitrag Nr. 135731.
        Aber nur gezwungen, weil vito gern wissen wollte, wie man mit solchen "Platzhaltern" arbeitet. Ich würde mich jetzt auch nicht darum reißen, HTML mit Regex zu parsen :)
        10 print "Hallo"
        20 goto 10
      - +3 replies
      - topeg
        
        2010-04-06 15:24
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        ich habe mal aus Neugier einen kleinen Parser geschrieben. Er ist weder Perfekt noch mit anderen Modulen zu vergleichen! Es ist nur eine Machbarkeitsstudie. Es ist nicht für den normalen Gebrauch geeignet.
        Also nach all den Warnungen:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112
        
        #!/usr/bin/perl use strict; use warnings; use Data::Dumper; use LWP::Simple; my $file=shift; my $data=''; if($file=~m!^http://!) { $data=get($file); } elsif(-f $file) { $data=eval{local($/,@ARGV)=(undef,$file); <>}; } elsif($file eq '-') { local $/=undef; $data=<STDIN>; } else { $data=$file; } print Dumper(parse($data)); ######################################################################## sub parse { # Liste mit allen Single-Tags my @single=qw( br hr ); # Abschuss-Tag erzwingen my %optional=( li=>[qw(ul ol)] td=>[qw(tr th)]); my $data=shift || ''; my $tree={name=>'root',childs=>[],opts=>{}}; my @deep=({name=>'root',ref=>$tree}); #Sind überhaupt html-tags enthalten? return undef if($data!~m!</?[\w\-_]+\s*(?:[\w\-_]+\s*=\s*(?:"[^"]*"|'[^']*'|[^<>]*)\s*)*\s*?/?>!s); # alle Tags finden und bearbeiten while($data=~m#<(/?[A-Za-z0-9][\w\-_]+)\s*((?:[\w\-_]+\s*=\s*(?:"[^"]*"|'[^']*'|[^<>]*)\s*)*)\s*?(/?)>((?:|[^<>]*)*)#gcs) { my $name=lc($1); my $opts=$2; my $single=$3; my $text=$4; my $end=0; # Single-Tag erzwingen $single=1 if(grep{lc($_) eq lc($name)}@single); $text=~s/^\s*(.*?)\s*$/$1/gs; # es handelt sich um einen Abschluss-Tag if(substr($name,0,1) eq '/') { # / entfernen substr($name,0,1,''); # Schon letzter end-tag last unless(@deep>1); # Passenden Abschluss-Tag finden while(my $p=shift(@deep)) { last if($p->{name} eq $name); } # keinen passenden gefunden last unless(@deep); # Block als Singeltag verarbeiten $single=1; $end=1; } # Abschusstag erzwingen if(exists($optional{$name}) && @deep>0) { my $cnt=1; while($cnt<@deep) { last if(grep{$deep[-$cnt]->{name} eq $_}@{$optional{$name}}); $cnt++; } $end=-$cnt; } # es ist kein Abschluss-Tag if($end<1) { # neuen Eintrag Erzeugen my $ref={name=>$name,childs=>[],opts=>{}}; push(@{$deep[$end]->{ref}->{childs}},$ref); # wir haben keine Single-Tag unshift(@deep,{name=>$name,ref=>$ref}) if(!$single); # Optionen Parsen if($opts) { while($opts=~s!(\w+)\s*=\s*"([^"]*)"!!s) { $ref->{opts}->{$1}=$2; } while($opts=~s!(\w+)\s*=\s*'([^']*)'!!s) { $ref->{opts}->{$1}=$2; } while($opts=~s!(\w+)\s*=\s*(\S*)!!s) { $ref->{opts}->{$1}=$2; } } } push(@{$deep[0]->{ref}->{childs}}, $text) if($text); } return $tree; }
        
        XHTML wird ohne Probleme geparst. Bei HTML fehlen viele Ausnahmeegelungen
        
        Edit:
        Ist mir gerade aufgefallen, dass der RegExp nicht mit HTML-Kommentaren klar kommt. Habe ich eben ergänzt.
        Last edited: 2010-04-06 16:38:37 +0200 (CEST)
        
        +2 replies
        
        esskar
        
        2010-04-06 15:35
        
        User since
        2003-08-04
        7321 Artikel
        ModeratorIn
        
        2010-04-06T13:24:21 topeg
        XHTML wird ohne Probleme geparst. Bei HTML fehlen viele Ausnahmeegelungen
        woran liegt das nur? ;-)
        
        topeg
        
        2010-04-06 15:56
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        2010-04-06T13:35:39 esskar
        2010-04-06T13:24:21 topeg
        XHTML wird ohne Probleme geparst. Bei HTML fehlen viele Ausnahmeegelungen
        woran liegt das nur? ;-)
        
        Die meisten können kein HTML schreiben? ;-)
        
        Das Hauptproblem sind die ganzen Tags, die nur Optional ein Abschlusstag brauchen (z.B. "li"). Wenn man in meinem Code die beiden Listen mit den Ausnahmen ergänzen würde, dann wäre der Parser gar nicht so schlecht. Aber dazu fehlt mit die Geduld. Und es war auch nur ein Test.

View all threads created 2010-04-02 09:42.