Quellcodeverarbeitung mit Perl (Webframeworks, Sonstige Fragen zur Webprogrammierung mit Perl)

[thread]20481[/thread]

Quellcodeverarbeitung mit Perl

Tags: perl5 Quellcode reguläre Ausdrücke quellcodeverarbeitung Ähnliche Threads

Leser: 14

Articles: hide open all | hide show old branches

+11 replies
Haselnuss992

2018-06-28 16:31
User since
2018-06-28
9 Artikel
BenutzerIn
Hallo zusammen,

Ich habe vor kurzem wieder angefangen in Perl zu programmieren und würde mich über den einen oder anderen Verbesserungsvorschlag freuen.
Zwar komme ich mit meiner Programmierung zum Ziel, aber ich bin aktuell nicht zufrieden mit meiner eigenen Lösung, da Sie in meinen Augen sehr umständlich umgesetzt ist.

Aktuell speicher ich mit dem wget Befehl eine bestimmte Website ab und werte dann Quellcode aus.
Die Information die ich benötige steht zwischen den HTML-Tags <tt>..</tt>.
Bspw.:
Code: (dl )

<td align="right"><tt>Mon, 12 Mar 2018 09:37:45 GMT</tt></td>
Jetzt habe ich folgende Lösung entwickelt :
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

open(FILE, "<$html") || error("$html konnte nicht geöffnet werden."); while(<FILE>){ if($_ =~ /\<tt\>/){ push(@input,split('.*\<tt\>',"$_")); } } close(FILE); foreach(@input){ if($_ =~ /\<.tt\>/){ push(@result,split('\<.tt\>.*',"$_")); } } print"@result";
Da Perl gerade in der Textverarbeitung sehr mächtig ist, bin ich fest davon überzeugt, dass man dieses Problem einfacher Lösen kann.
Last edited: 2018-06-28 17:10:20 +0200 (CEST)
- +3 replies
- rosti
  
  2018-06-28 17:16
  
  User since
  2011-03-19
  3810 Artikel
  BenutzerIn
  
  Nimm einen HTML/XML Parser. Da was Eigenes zu basteln ist Zeitverschwendung. Und nochwas: <tt> ist deprecated. In HTML5 gibts das gar nicht mehr.
  
  MfG
  https://www.rolfrost.de/
  
  Forum zu Fragen unserer Zeit
  - +2 replies
  - Haselnuss992
    
    2018-06-29 09:33
    
    User since
    2018-06-28
    9 Artikel
    BenutzerIn
    
    Danke für den Hinweis rosti, als Webentwickler bin ich mir dessen durchaus bewusst, aber solange die Browser die HTML-Tags unterstützen, wird sich nicht jeder die Mühe machen komplett auf HTML5 umzuswitchen.
    Vorallem da viele HTML5 Features in den aktuellen Browserversionen noch immer nicht implementiert sind.
    
    Dem Rattenschwanz wird man wohl noch einige Zeit hinterher jagen...
    - rosti
      
      2018-06-29 14:57
      
      User since
      2011-03-19
      3810 Artikel
      BenutzerIn
      
      Nun, Perlre ist mächtig. Du kannst sämtliches Matches mit einem Rutsch auf ein Array lesen, zB:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13
      
      my $html = do{ local $/ = undef; <DATA>; }; # musst nur entsprechend klammern my $r = [$html =~ /<tt>(.*?)<\/tt>/g ]; print Dumper $r; __DATA__  <tt>foo</tt> <tt>bar</tt>
      
      Mit {} bekommst Du übrigens eine Hashrferenz. Also wenn die zu suchenden Ausdrücke ein assoz. Array ergeben könnten...
      
      MfG
      https://www.rolfrost.de/
      
      Forum zu Fragen unserer Zeit
- Linuxer
  
  2018-06-28 17:21
  User since
  2006-01-27
  3894 Artikel
  HausmeisterIn
  Willkommen.
  
  Da Du um Verbesserungsvorschläge gebeten hast:
  
  - Vermeide "Bareword" Filehandles, vor allem generische mit Allerweltsnamen wie FILE, nutze besser lexikalische Filehandles (Variablen mit my deklariert)
  - und verwende am Besten die 3-Argument-Form des open(), d.h. trenne den Modus vom Dateinamen
  - lass Dir beim Fehler am besten auch gleich die Systemmeldung (in $!) ausgeben
  
  Zusammengefasst:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6
  
  open my $fh, '<', $filename or die "open($filename, ro) failed: $!"; while ( my $line = <$fh> ) { ... } close $fh;
  
  Zur Aufgabe:
  Eigentlich ist HTML nicht regulär genug, um es sauber mit Regex zu parsen.
  Zum Extrahieren einzelner Punkte kann es noch gut gehen. Ist immer ein Abwägen zwischen "Was will man", "Wie zuverlässig sind die Daten?" und "Wie zuverlässig will man es?".
  Wenn man das im Hinterkopf behält, kann man es versuchen; oder wenn es mehr wird, gleich auf einen richtigen Parser zurück greifen.
  
  ungetesteter Vorschlag (ohne Parser, mit Regex)
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9
  
  open my $fh, '<', $filename or die "open($filename, ro) failed: $!"; while ( my $line = <$fh> ) { if ( $line =~ m/<tt>([^<]+)</tt> ) { print "Match: $1\n"; } } close $fh;
  
  Das genauere Verarbeiten (vom Treffer in $1) musst Du dann entsprechend selber einbauen.
  meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
  Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
- +6 replies
- GwenDragon
  
  2018-06-28 18:41
  User since
  2005-01-17
  14942 Artikel
  Admin1
  So wie man es nicht machen sollte:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
  
  use strict; use warnings; use 5.010; my $line = do { local $/ = undef; <DATA>; }; my @tt_content = ($line =~ m|<\s*tt\s*>([^<]+)</\s*tt\s*>|gim); say "Found: "; say for @tt_content; __DATA__ <Tt>NEVER USE REGEX AS HTML PARSER!</tT> < tt >" Hia ha ho "</ tt > < TT >a</ tt >
  
  Ergibt:
  Found: NEVER USE REGEX AS HTML PARSER! " Hia ha ho " a
  
  sondern wie in http://htmlparsing.com/perl.html beschrieben, mit HTML::Parser..
  Last edited: 2018-06-28 18:49:59 +0200 (CEST)
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
  - +5 replies
  - Linuxer
    
    2018-06-29 00:13
    
    User since
    2006-01-27
    3894 Artikel
    HausmeisterIn
    
    Naja, ist halt immer die Frage, was man an Daten zu erwarten hat. Wenn die Tags schrottig formatiert (sprich invalide) sind, dann steigt sogar HTML::Parser aus und liefert falsche Ergebnisse! Das durfte ich am Abend beim Ausprobieren erleben.
    
    Aber die verlinkte Seite finde ich gut; gerade das Beispiel mit WWW::Mechanize::TreeBuilder finde ich sehr schön - gerade für den hiesigen Einsatzzweck. Danke dafür.
    meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
    Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
    - +4 replies
    - Haselnuss992
      
      2018-06-29 09:29
      
      User since
      2018-06-28
      9 Artikel
      BenutzerIn
      
      Guten Morgen,
      
      Erst einmal vielen Dank für die tollen Vorschläge :D
      Also im Prinzip möchte ich auf einen HTML-Parser verzichten, da es sich um eine externe Kundenseite handelt, in welcher ich mir lediglich eine Datei Downloaden möchte, sofern die Versionierung sich verändert hat.
      Die Seite hat sich vom Quellcode seit Jahren nicht mehr verändert und ich denke, dass bleibt auch so, falls nicht wird halt nachgebessert.
      
      @Linuxer vielen Dank für die Tipps und den anschaulichen Quellcode, genau so etwas habe ich gesucht.
      
      Jetzt stellt sich mir nur die Frage, warum man zum einen lieber lexikalische Filehandles statt Barewords bevorzugt und zum andern wieso man den Modus vom Dateinamen trennen sollte.
      Macht das einen Unterschied?
      
      @Gwen danke für den Link, ist eine Klasse alternative!
      - +3 replies
      - GwenDragon
        
        2018-06-29 10:10
        
        User since
        2005-01-17
        14942 Artikel
        Admin1
        
        2018-06-29T07:29:43 Haselnuss992
        Jetzt stellt sich mir nur die Frage, warum man zum einen lieber lexikalische Filehandles statt Barewords bevorzugt und zum andern wieso man den Modus vom Dateinamen trennen sollte.
        Macht das einen Unterschied?
        Weil ein BAREWORD immer im ganzen Programm global ist.
        Wenn du weißt wo und wie und wann die Handles öffnest und schließt mag das ja noch tragbar sein.
        Den Modus trennt man vom Dateinamen, damit man den nicht unvorsichtigerweise über einen Dateinamen ändert. Zudem liest sich ein abgetrennter Modus einfacher später.
        
        Quote
        @Gwen danke für den Link, ist eine Klasse alternative!
        Wie und mein Code-Schnippsel ist gar nix? Ist der nix für dich? Der geht ja auch für deine speziellen Fälle.
        Last edited: 2018-06-29 10:11:19 +0200 (CEST)
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        +2 replies
        
        Haselnuss992
        
        2018-06-29 14:19
        
        User since
        2018-06-28
        9 Artikel
        BenutzerIn
        
        Danke für die Erläuterung Gwen.
        Du hast über den Quellcode geschrieben "So sollte man es nicht machen", daher dachte ich, der Code wäre für meine speziellen Fälle uninteressant.
        
        Code: (dl )
        
        my $line = do { local $/ = undef; <DATA>; };
        
        Diese Zeile sagt mir nämlich gar nichts.
        Dein regulärer Ausdruck ist aber durchaus hilfreich, danke für die Mühe.
        
        Ihr habt mir schon sehr geholfen!
        
        GwenDragon
        
        2018-06-29 16:13
        
        User since
        2005-01-17
        14942 Artikel
        Admin1
        
        Du kannst ja den Code mit dem Regex ruhig nehmen, muss halt nicht immer funktionieren. Aber es ist eben nicht wirklich sinnvoll HTML mit Regex zu parsen.
        
        Die Zeile mit dem do {} Bedeutet:
        Zeile 1: Zuweisung eines zurück gegebenen Wertes aus dem anschließenden Codeblocks an die Variable $line
        Zeile 2: do führt Codeblock aus
        Zeile 3: Zeilenende-Trenner $/ wird auf undef gesetzt, damit man die Datei in einem Rutsch einlesen kann
        Zeile 4: Alle Zeilen im __DATA__-Block am Ende des Programms werden eingelesen und als eine Zeile zurück gegeben
        Zeile 5: Ende des Code Blocks
        
        Code (perl): (dl )
        
        1 2 3 4 5
        
        my $line = do { local $/ = undef; <DATA>; };
        
        Last edited: 2018-06-29 16:14:38 +0200 (CEST)
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten

View all threads created 2018-06-28 16:31.