Crawler bzw. Scraper - Wie am besten? - #145793 (Perl/CGI)

clms

2011-02-21 00:22

User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]

2011-02-20T18:25:34 grosseskino
Ich möchte einen Crawler bzw. Scraper in Perl schreiben und bräuchte mal ein paar Tipps für die richtige Vorgehensweise.
*Ich möchte einen Crawler schreiben, der einen Host auf alle Links durchsucht
*Jeder Link dessen URL nicht /forum/ oder /blog/ enthält, soll gecrawlt werden
*Jede Seite die den zuvor genannten Anforderungen entspricht soll auf vordefinierte Tags untersucht werden (z.B. Jazz, Rock, Blues,...)
*Als Ergebnis möchte ich eine Mysql Datenbank erstellen, in der z.B. das Tag "Jazz" mit allen URLs verlinkt wird, in denen das Tag gefunden wurde

Nun meine Frage:
Welche Module sollte ich benutzen?

Ich gehe mal davon aus, dass Du auf den Host über HTTP zugreifen und dann HTML-Seiten runterladen willst, die Du auf die Links untersuchst.

Ich habe vor Jahren mal ähnliches gemacht. Damals habe ich CPAN:

LWP::RobotUA für's Holen der Seiten und CPAN:

HTML::LinkExtor zum Extrahieren der Links eingesetzt.

Wenn Du die HTML-Seiten neben Links noch auf andere Dinge untersuchen willst, empfehle ich Dir CPAN:

HTML::TreeBuilder. Dann kannst Du auf CPAN:

HTML::LinkExtor verzichten und Dir die Links selbst aus dem HTML-Tree holen.

Als Schnittselle zu Datenbank dient selbsterverständlich CPAN:

DBI.