Thread XML::LibXML + HTML::TreeBuilder sollen Parsen abbrechen bei defektem HTML (19 answers)
Opened by bikus at 2010-05-04 16:21

Gast bikus
 2010-05-04 18:47
#136752 #136752
Du bist ungerecht, weil du beim XML::LibXML nicht versuchst, etwas auszugeben. Und mit parse_string_html funktioniert es:

Code (perl): (dl )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
#!/usr/bin/env perl
use warnings; 
use strict;

use HTML::TreeBuilder;
use XML::LibXML;

eval {
        print "Parsing with XML::LibXML\n";
        my $parser = XML::LibXML->new( recover => 2 );
        my $doc = $parser->parse_html_string(<<'EOT');
<html>
<A>
EOT
        print $doc->toString;
};
print $@ if ($@); 



eval{
        print "\n\nParsing with HTML::TreeBuilder\n";
        my $tree = HTML::TreeBuilder->new; # empty tree
        $tree->parse(<<'EOT');
<html>
<A>
EOT
        $tree->dump; 
};
print $@

Last edited: 2010-05-04 18:54:50 +0200 (CEST)

View full thread XML::LibXML + HTML::TreeBuilder sollen Parsen abbrechen bei defektem HTML