Crawler bzw. Scraper - Wie am besten? (Perl/CGI)

[thread]15987[/thread]

Crawler bzw. Scraper - Wie am besten?

Leser: 26

Articles: hide open all | hide show old branches

+4 replies
grosseskino

2011-02-20 19:25

User since
2011-02-20
2 Artikel
BenutzerIn

Hi!

Ich möchte einen Crawler bzw. Scraper in Perl schreiben und bräuchte mal ein paar Tipps für die richtige Vorgehensweise.

Bisher habe ich nur wenig Erfahrung mit Perl, bin aber sehr Lernwillig!

Mein Projekt soll wie folgt ablaufen:

*Ich möchte einen Crawler schreiben, der einen Host auf alle Links durchsucht
*Jeder Link dessen URL nicht /forum/ oder /blog/ enthält, soll gecrawlt werden
*Jede Seite die den zuvor genannten Anforderungen entspricht soll auf vordefinierte Tags untersucht werden (z.B. Jazz, Rock, Blues,...)
*Als Ergebnis möchte ich eine Mysql Datenbank erstellen, in der z.B. das Tag "Jazz" mit allen URLs verlinkt wird, in denen das Tag gefunden wurde

Nun meine Frage:
Welche Module sollte ich benutzen?
Wie würdet ihr vorgehen?

Vielen Dank schon mal im Vorraus für eure Hilfe!
Last edited: 2011-02-20 19:52:49 +0100 (CET)
- clms
  
  2011-02-21 00:22
  
  User since
  2010-08-29
  373 Artikel
  BenutzerIn
  
  2011-02-20T18:25:34 grosseskino
  Ich möchte einen Crawler bzw. Scraper in Perl schreiben und bräuchte mal ein paar Tipps für die richtige Vorgehensweise.
  *Ich möchte einen Crawler schreiben, der einen Host auf alle Links durchsucht
  *Jeder Link dessen URL nicht /forum/ oder /blog/ enthält, soll gecrawlt werden
  *Jede Seite die den zuvor genannten Anforderungen entspricht soll auf vordefinierte Tags untersucht werden (z.B. Jazz, Rock, Blues,...)
  *Als Ergebnis möchte ich eine Mysql Datenbank erstellen, in der z.B. das Tag "Jazz" mit allen URLs verlinkt wird, in denen das Tag gefunden wurde
  
  Nun meine Frage:
  Welche Module sollte ich benutzen?
  
  Ich gehe mal davon aus, dass Du auf den Host über HTTP zugreifen und dann HTML-Seiten runterladen willst, die Du auf die Links untersuchst.
  
  Ich habe vor Jahren mal ähnliches gemacht. Damals habe ich LWP::RobotUA für's Holen der Seiten und HTML::LinkExtor zum Extrahieren der Links eingesetzt.
  
  Wenn Du die HTML-Seiten neben Links noch auf andere Dinge untersuchen willst, empfehle ich Dir HTML::TreeBuilder. Dann kannst Du auf HTML::LinkExtor verzichten und Dir die Links selbst aus dem HTML-Tree holen.
  
  Als Schnittselle zu Datenbank dient selbsterverständlich DBI.
- +2 replies
- Taulmarill
  
  2011-02-21 10:10
  
  User since
  2004-02-19
  1750 Artikel
  BenutzerIn
  
  Mojo::Client sieht mir wie gemacht dafür aus. Schau dir mal das Beispiel an: http://search.cpan.org/~kraih/Mojolicious-1.11/lib/Mojolicious/Guides/Cookbook.pod#Web_Scraping
  $_=unpack"B*",~pack"H*",$_ and y&1|0& |#&&print"$_\n"for@.=qw BFA2F7C39139F45F78 0A28104594444504400 0A2F107D54447DE7800 0A2110453444450500 73CF1045138445F4800 0 F3EF2044E3D17DE 8A08A0451412411 F3CF207DF41C79E 820A20451412414 83E93C4513D17D2B
  - grosseskino
    
    2011-02-22 11:28
    
    User since
    2011-02-20
    2 Artikel
    BenutzerIn
    
    Vielen Dank für eure Hilfe
    
    Ich werde mir die Module mal genauer angucken.

View all threads created 2011-02-20 19:25.