Nur tatsächliche Texte aus HTML parsen - #29014 (Webframeworks, Sonstige Fragen zur Webprogrammierung mit Perl)

renee

2007-05-14 12:08

User since
2003-08-04
14371 Artikel
ModeratorIn

Das hier dürfte eine ganz gute Basis sein:

Code (perl): (dl )

#!/usr/bin/perl

use strict;
use warnings;
use HTML::Parser;
use LWP::Simple;
use Data::Dumper;

my $url = '[URL=http://foo-magazin.de]http://foo-magazin.de[/URL]';
#my $url = '[URL=http://de.wikipedia.org/wiki/Perl]http://de.wikipedia.org/wiki/Perl[/URL]';
my $content = get($url);

if( $content ){
    my @text_parts;

    my $parser = HTML::Parser->new();
    $parser->ignore_elements(qw/head/);
    $parser->handler( 
        text => sub{ 
            push @text_parts, grep{!/^[\s\n]*$/}@_ 
        },
        "dtext" 
    );
    $parser->handler( comment => sub {""} );
    $parser->parse($content);

    print Dumper(\@text_parts);
}

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/