Thread Crawler bzw. Scraper - Wie am besten? (3 answers)
Opened by grosseskino at 2011-02-20 19:25

clms
 2011-02-21 00:22
#145793 #145793
User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]
2011-02-20T18:25:34 grosseskino
Ich möchte einen Crawler bzw. Scraper in Perl schreiben und bräuchte mal ein paar Tipps für die richtige Vorgehensweise.
*Ich möchte einen Crawler schreiben, der einen Host auf alle Links durchsucht
*Jeder Link dessen URL nicht /forum/ oder /blog/ enthält, soll gecrawlt werden
*Jede Seite die den zuvor genannten Anforderungen entspricht soll auf vordefinierte Tags untersucht werden (z.B. Jazz, Rock, Blues,...)
*Als Ergebnis möchte ich eine Mysql Datenbank erstellen, in der z.B. das Tag "Jazz" mit allen URLs verlinkt wird, in denen das Tag gefunden wurde

Nun meine Frage:
Welche Module sollte ich benutzen?

Ich gehe mal davon aus, dass Du auf den Host über HTTP zugreifen und dann HTML-Seiten runterladen willst, die Du auf die Links untersuchst.

Ich habe vor Jahren mal ähnliches gemacht. Damals habe ich CPAN:LWP::RobotUA für's Holen der Seiten und CPAN:HTML::LinkExtor zum Extrahieren der Links eingesetzt.

Wenn Du die HTML-Seiten neben Links noch auf andere Dinge untersuchen willst, empfehle ich Dir CPAN:HTML::TreeBuilder. Dann kannst Du auf CPAN:HTML::LinkExtor verzichten und Dir die Links selbst aus dem HTML-Tree holen.

Als Schnittselle zu Datenbank dient selbsterverständlich CPAN:DBI.

View full thread Crawler bzw. Scraper - Wie am besten?