Moin,
Ich hab ein Problem mit HTML::Treebuilder. Ich möchte Informationen von einer Internetseite verarbeiten, die utf8-codiert ist:
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN"
"http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
Ich hab also angefangen und einen LWP Post request gesendet um die Antwort dann mit HTML::Treebuilder zu verarbeiten:
use LWP::Simple;
use HTML::TreeBuilder;
# LWP Post request speichert Ergebnis in $response...
...
my $content = $response->content;
my $root = HTML::TreeBuilder->new_from_content($content);
leider bereitet mir dabei folgende Fehlermeldung Kopfschmerzen:
Parsing of undecoded UTF-8 will give garbage when decoding entities
Ich hab ehrlich gesagt keine Ahnung von Zeichen-Codierungen und stehe diesem Problem deshalb ziemlich hilflos gegenüber, ich weiß nicht mal welche andere Kodierung ich denn brauche.
Also offenbar mache ich irgendwas falsch... ich weiß nur nicht wo ^^ wäre euch daher für nen Tipp dankbar :)
Gruß, Nordlicht.
Last edited: 2011-11-09 06:40:38 +0100 (CET)