Hallo Kollegen,
gerne möchte ich den Inhalt einer bestimmten Internetseite
fetchen. Das sollte doch machbar sein oder? Aber mein Beispielskript ist NICHT in der Lage den Inhalt der Internetseite
http://videos.arte.tv/de/videos herunterzuladen:
use LWP::UserAgent;
$ua = new LWP::UserAgent;
$ua->agent('Schmozilla');
$response = $ua->get('http://videos.arte.tv/de/videos');
die if $response->is_error();
print $response->headers->as_string;
Der Inhalt des Antwortheader lautet:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Cache-Control: max-age=600
Connection: close
Date: Sun, 10 Feb 2013 19:45:20 GMT
Via: 1.1 varnish
Age: 281
Server: Apache-Coyote/1.1
Content-Language: fr-FR
Content-Length: 92239
Content-Type: text/html;charset=UTF-8
Expires: Sun, 10 Feb 2013 19:50:39 GMT
Last-Modified: Sun, 10 Feb 2013 19:40:30 GMT
Client-Aborted: die
Client-Date: Sun, 10 Feb 2013 19:45:20 GMT
Client-Peer: 87.248.217.254:80
Client-Response-Num: 1
X-Backend: COREMEDIA_cae_director
X-Cacheable: YES
X-Died: Illegal field name 'X-Meta-Twitter:creator' at /opt/local/lib/perl5/vendor_perl/5.10.1/darwin-thread-multi-2level/HTML/HeadParser.pm line 207
X-NumberOfHits: 8
X-UnsetCookie: true
X-Varnish: 375223744 375221789
Man beachte den Feldnamen
X-Died mit dem Wert
Illegal field name 'X-Meta-Twitter:creator' at /opt/local/lib/perl5/vendor_perl/5.10.1/darwin-thread-multi-2level/HTML/HeadParser.pm line 207 in der Headerantwort. Es liegt nahe, dass LWP am Meta Tag
<meta name="twitter:creator" content="@artede"> scheitert.
Ich arbeite auf einem Mac OS X 10.6.8 System und das o.g. Skript habe ich mit den Perl Versionen 5.10 — 5.16 aus MacPorts mit jeweils aktuellem
LWP Modul und stets mit dem gleichen Ergebnis ausprobiert.
Weiß jemand zu diesem Verhalten des
LWP Modul Rat?
Oder kennt jemand eine andere Möglichkeit die Internetseite des Fernsehsenders
Arte zu
fetchen?
Viele Grüße,
Brathering