Thread Crawler bzw. Scraper - Wie am besten?
(3 answers)
Opened by grosseskino at 2011-02-20 19:25 2011-02-20T18:25:34 grosseskino Ich gehe mal davon aus, dass Du auf den Host über HTTP zugreifen und dann HTML-Seiten runterladen willst, die Du auf die Links untersuchst. Ich habe vor Jahren mal ähnliches gemacht. Damals habe ich LWP::RobotUA für's Holen der Seiten und HTML::LinkExtor zum Extrahieren der Links eingesetzt. Wenn Du die HTML-Seiten neben Links noch auf andere Dinge untersuchen willst, empfehle ich Dir HTML::TreeBuilder. Dann kannst Du auf HTML::LinkExtor verzichten und Dir die Links selbst aus dem HTML-Tree holen. Als Schnittselle zu Datenbank dient selbsterverständlich DBI. |