Jemand zu Hause?Leser: 26
FaqBenutzungModuleHTMLParser
Wie frage ich & perlintro
brian's Leitfaden für jedes Perl-Problem
HTML::TreeBuilder für deinen fall geeigneter.
Wie frage ich & perlintro
brian's Leitfaden für jedes Perl-Problem
Wie frage ich & perlintro
brian's Leitfaden für jedes Perl-Problem2009-10-12T10:21:18 pktm[...]
Ich brauche einfach jedes <li> in der Webseite.
[...]
HTML::TreeBuilder::XPath =)
Wie frage ich & perlintro
brian's Leitfaden für jedes Perl-Problem
HTML::TreeBuilder,
HTML::Parse,
HTML::Parser oder
HTML::TagParser uswQuoteWenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben.
QuoteAnders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht.
QuoteNur zum Auslesen muss ein Parser nicht schauen ob das Dokument auch Valide ist. Sprich ob Tags korrekt verschachtelt sind wie erlaubt etc. Sowas kann man zum auslesen auch ignorieren da man ja nicht die Validität überprüfen will.
2009-10-12T12:28:35 topeg
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
#!/usr/bin/perl use strict; use warnings; use Web::Scraper; use LWP::Simple; my $content = get( 'http://perl-magazin.de/' ); my $scraper = scraper { process 'li', 'items[]' => 'TEXT'; result 'items'; }; my $result = $scraper->scrape( $content ); print $_,"\n" for @$result;