|
Thread Crawler bzw. Scraper - Wie am besten?
(3 answers)
Opened by grosseskino at 2011-02-20 19:25 2011-02-20T18:25:34 grosseskino Ich gehe mal davon aus, dass Du auf den Host über HTTP zugreifen und dann HTML-Seiten runterladen willst, die Du auf die Links untersuchst. Ich habe vor Jahren mal ähnliches gemacht. Damals habe ich LWP::RobotUA für's Holen der Seiten und HTML::LinkExtor zum Extrahieren der Links eingesetzt.Wenn Du die HTML-Seiten neben Links noch auf andere Dinge untersuchen willst, empfehle ich Dir HTML::TreeBuilder. Dann kannst Du auf HTML::LinkExtor verzichten und Dir die Links selbst aus dem HTML-Tree holen.Als Schnittselle zu Datenbank dient selbsterverständlich DBI.
|