Thread HTML file nach infos duchsuchen od. parsen??
(22 answers)
Opened by Gast at 2007-10-23 03:13
danke erstmal;
ich habe mir dein code angeschaut, ich habe folgende frage, kann ich die <DATA> durch einen Pfad ersetzen, weil ich habe eine Html-Datei auf der Festplatte mit text usw..und enthält diese TR Blöcke, ich kann s nicht im code pasten das ist zugross; und was anderes:_) gibts ein manual oder howto für Web::Scraper?, weil ich da nicht nachvollziehen kann was du mir gepostet hast. welche Variante an code wäre besser?? deins oder meins??effizienz??speicher?? schau mal diesen code da bestele ich an ihn rum; ich danke dir wegen deiner Betreuung; so fühlt man sich besser. Code (perl): (dl
)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 #!/usr/bin/perl use strict; use warnings; print "wait please, program running!!!\n "; use HTML::TreeBuilder; my $tree = HTML::TreeBuilder->new; $tree->parse_file('C:/Documents and Settings/Mittler/Desktop/test.html'); #diese test.html enthält viele blöcke von TR, und welche auch ohne 'INPUT' tag du kannst es erstellen in dem du der TR block pastest und kannst auch welche modifizieren in dem du z.B INPUT tag weg lässt. my @table_rows = $tree->look_down( '_tag' => 'tr', sub { #da tut nicht was ich will?? das der input tag miteibezogen wird $_[0]->look_down ( '_tag' => 'input',) sub { #die sub tut s wenn die obere sub weg lass, aber bricht ab wenn ein TR block ohne INPUT tag auftaucht, und genau das möchte ich nicht. $_[0]->look_down ( '_tag' => 'tt', sub { $_[0]->as_text =~ /Met/ }) }} ) ); foreach my $table_row (@table_rows) { my($input_field) = $table_row->look_down('_tag' => 'input'); print $input_field->attr('value'), "\n"; foreach my $input_text ($table_row->look_down('_tag' => 'tt')){ #print $input_text->as_text; my @array = $input_text->as_text; print "$array[0]\n"; # <---kann ich da diese werte splitten und einzelen ausgeben? } print"----------------------------------------------\n"; } print "done!\n" |