perl im debug-modus fahren - #141655 (Allgemeines zu Perl)

lin

2010-10-02 21:13

User since
2010-09-26
35 Artikel
BenutzerIn
[default_avatar]

Hallo GwenDragon, hallo pq und unbek. Gast.

Das mit den oben genannten Fragen zu den Pfaden muss ich unbed. noch klären! ich werde mich da nochmals reinhängen. Eure Fragen sind wirlich gut!

Wie auch immmer... ich hab aber folgendes gemacht:

Ich habe das gewelchselt - von

Code (perl): (dl )

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
use File::Find::Rule;
my @files = File::Find::Rule->file()
                 ->name('einzelergebnis*.html')
                 ->in( '/home/usr/perl/htmlfiles' );
foreach my $file(@files) {
       print $file, "\n";
}  
[/perl]


zu dem Folgenden: 

[code=perl]
#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
use File::Find::Rule;
my @files = File::Find::Rule->file()
                 ->name('einzelergebnis*.html')
                 ->in( '.' );
foreach my $file(@files) {
        print $file, "\n";

}  
[/perl]

und habe den folgenden output bekommen: 

[quote]
htmlfiles/einzelergebnis80b5.html
htmlfiles/einzelergebnisa0ef.html
htmlfiles/einzelergebnis1b42.html
htmlfiles/einzelergebnis5960.html
htmlfiles/einzelergebnise523.html
htmlfiles/einzelergebnis2c7e.html
htmlfiles/einzelergebnisdf57.html
htmlfiles/einzelergebnis2b53-2.html
htmlfiles/einzelergebnisb1c0-2.html
htmlfiles/einzelergebnis8e8b.html
htmlfiles/einzelergebnisdcc1.html
htmlfiles/einzelergebnis1dae-2.html
htmlfiles/einzelergebnisa70d.html
htmlfiles/einzelergebnis3cec.html
htmlfiles/einzelergebnis3f1f.html
htmlfiles/einzelergebnis1d2b.html
htmlfiles/einzelergebnis396c.html
htmlfiles/einzelergebnis2592.html
htmlfiles/einzelergebnisdee0.html
htmlfiles/einzelergebnis987b-2.html
htmlfiles/einzelergebnise20b.html
htmlfiles/einzelergebnised05.html
htmlfiles/einzelergebnisdec3.html
und 22 tausend weiteren Zeilen... ;-) [/quote]


jetzt da die Vorübungen einiges geklärt haben muss ich daran gehen das HTML-parser-script (siehe unten) anzupassen. 

Also die Pfade zu defniieren: 

in $file the  file/directory  incl. und einen Pfad zu defniieren in 
$html_dir 

BTW – Bianca hat heute Morgen die Frage aufgeworfen was  Array @html_files  macht!!? Ist mir im Grunde auch noch 
nicht ganz klar!? 

Hier der Code des Parsers: 

[code=perl]
#!/usr/bin/perl
use strict;
use warnings;
use HTML::TokeParser;

my $file = 'school.html';
my $p = HTML::TokeParser->new($file) or die "Can't open: $!";

my %school;
while (my $tag = $p->get_tag('div', '/html')) {
    # first move to the right div that contains the information
    last if $tag->[0] eq '/html';
    next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large';
    
    $p->get_tag('h1');
    $school{'location'} = $p->get_text('/h1');
    
    while (my $tag = $p->get_tag('div')) {
        last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile';
        
        # get the school name from the heading
        next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte';
        $p->get_tag('h2');
        $school{'name'} = $p->get_text('/h2');
        
        # verify format for school type
        $tag = $p->get_tag('span');
        unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') {
            warn "unexpected format: parsing stopped";
            last;
        }
        $school{'type'} = $p->get_text('/span');
        
        # verify format for address
        $tag = $p->get_tag('p');
        unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') {
            warn "unexpected format: parsing stopped";
            last;
        }
        $school{'address'} = clean_address($p->get_text('/p'));
        
        # find the description
        $tag = $p->get_tag('p');
        $school{'description'} = $p->get_text('/p');
    }
}

print qq/$school{'name'}n/;
print qq/$school{'location'}n/;
print qq/$school{'type'}n/;

foreach (@{$school{'address'}}) {
    print "$_\n";
}

print qq/nDescription: $school{'description'}n/;

sub clean_address {
    my $text = shift;
    my @lines = split "\n", $text;
    foreach (@lines) {
        s/^s+//;
        s/s+$//;
    }
    return @lines;
}

Freu mich auf nen Tipp beim Anpassen des Parserscripts!!

Tx lin

BTW - es hat die Formatierung des Beitrags verrissen - ich muss nochmals gucken warum..!? Mache ich noch!?
Last edited: 2010-10-02 21:14:37 +0200 (CEST)