Detailfragen (Allgemeines zu Perl)

[thread]14930[/thread]

Detailfragen

Leser: 22

Articles: hide open all | hide show old branches

Teilbaum:
Detailfragen (15 Artikel) 2010-04-16 11:29

+16 replies
vitopetre

2010-04-13 20:54
User since
2010-02-14
25 Artikel
BenutzerIn
Nächste Frage zum Treebuilder:

Wie sage ich dem Treebuilder gehe zu einer Stelle und nimm dir dann von da das was im nächsten Tag steht?

Also z. B. ich hab jetzt die Stelle wo das Abstract anfängt folgendermaßen gefunden, jetzt will ich das was zwischen <p> <\p> steht geparst haben? Geht das irgendwie?
Code (perl): (dl )

1 2 3 4 5 6 7

my $abstract; for my $h3 ( $html->look_down( _tag => 'h3')) { next if($h3->as_text ne 'Abstract'); $abstract = $h3->as_text; last; }
Hier der Teil des zugehörigen Quelltextes:
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

<h3 class="blue">Abstract</h3> <p class="blue"> The definition and purpose of crowdsourcing and its relevance to libraries is discussed with particular reference to the <a href="http://newspapers.nla.gov.au">Australian Newspapers</a> service, <a href="http://familysearchindexing.org">FamilySearch</a>, <a href="http://wikipedia.org">Wikipedia</a>, <a href="http://www.pgdp.net">Distributed Proofreaders</a>, <a href="http://www.galaxyzoo.org">Galaxy Zoo</a> and <a href="http://mps-expenses.guardian.co.uk">The Guardian MP's Expenses Scandal</a>. These services have harnessed thousands of digital volunteers who transcribe, create, enhance and correct text, images and archives. Known facts about crowdsourcing are presented and helpful tips and strategies for libraries beginning to crowdsource are given. </p>
Wie immer bin ich für jede hilfreiche Antwort sehr dankbar!

mod-edit pq: code-tags um html hinzugefügt

mod-edit pq: teilbaum
Last edited: 2010-04-16 11:29:59 +0200 (CEST)
- murphy
  
  2010-04-13 21:53
  User since
  2004-07-19
  1776 Artikel
  HausmeisterIn
  Ich kann nur mantraartig wiederholen, dass XPath hier das Leben deutlich einfacher macht:
  
  Code (perl): (dl )
  
  my $abstract = $document->findvalue('//h3[text() = "Abstract"]/following-sibling::p[1]//text()');
  
  (edit: Bessere Textselektion im XPath-Ausdruck)
  Last edited: 2010-04-13 22:13:21 +0200 (CEST)
  When C++ is your hammer, every problem looks like your thumb.
- +14 replies
- topeg
  
  2010-04-13 23:37
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  Ist auch nicht sehr schwer:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
  
  my $abstract; for my $h3 ($block->look_down(_tag => 'h3')) { # "ne" geht auch next if($h3->as_text() !~ /Abstract/i); # das nachfolgende Element: my $p=$h3->parent()->content()->[$h3->pindex()+1]; # etwas gefunden, # das eine Referenz(Objekt) ist # und den Tagnamen "p" hat? if($p && ref($p) && $p->tag() eq 'p') { $abstract= $p->as_text(); last; } } if($abstract) { ... }
  - +13 replies
  - vitopetre
    
    2010-04-14 16:30
    
    User since
    2010-02-14
    25 Artikel
    BenutzerIn
    
    Super vielen Dank Topeg - du bist der Beste!
    
    So langsam verstehe ich das ganze immer besser.
    
    Leider muss ich jetzt nochmal weiter auf den ersten Link, der auf den HTML-Seiten steht (das ist immer der selbe Link, der zum Table of Contents der akutellen Ausgabe der Zeitung führt).
    
    Wie kriege ziehe ich mir denn jetzt diesen Link so, daraus meine letzten benötigten Informationen ziehen kann? Alles was ich versucht habe führt leider nicht zum gewünschten Ergebnis.
    
    Hier mal der Abschnitt aus dem HTML-Quelltext( der eigentlich auf allen Seiten gleich aussehen "müsste"):
    
    <h3 class="blue-space">D-Lib Magazine</h3>
    <p class="blue">March/April 2010<br />
    Volume 16, Number 3/4<br />
    
    <a href="../03contents.html">Table of Contents</a>
    </p>
    
    Vielen Dank für eure Hilfe!
    - +3 replies
    - pq
      
      2010-04-14 16:38
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
      
      $ perl -wle' use HTML::TreeBuilder::XPath; my $tree = HTML::TreeBuilder::XPath->new; $tree->parse(<<EOM); <h3 class="blue-space">D-Lib Magazine</h3> <p class="blue">March/April 2010<br /> Volume 16, Number 3/4<br /> <a href="../03contents.html">Table of Contents</a> </p> EOM my $href = $tree->findvalue(q{//p[@class="blue"]/a/@href}); print $href' ../03contents.html
      
      edit: wobei ich mich frage, warum
      $tree->findvalue(q{//a[text() = "Table of Contents"/@href});
      nicht geht. da hörts dann doch mit meinen xpath-kenntnissen auf.
      Last edited: 2010-04-14 16:54:20 +0200 (CEST)
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
      - +2 replies
      - murphy
        
        2010-04-14 18:29
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        2010-04-14T14:38:32 pq
        [...]
        edit: wobei ich mich frage, warum
        $tree->findvalue(q{//a[text() = "Table of Contents"/@href});
        nicht geht. da hörts dann doch mit meinen xpath-kenntnissen auf.
        
        Ich würde
        
        Code (perl): (dl )
        
        $tree->findvalue("//a[text() = \"Table of Contents\"]/attribute::href")
        
        vorschlagen.
        When C++ is your hammer, every problem looks like your thumb.
        
        pq
        
        2010-04-14 18:32
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        das funktioniert hier genausowenig. ist immer leer.
        evtl. ein problem mit XML::XPathEngine
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - +9 replies
    - topeg
      
      2010-04-14 16:56
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
      
      my $contents; outer:for my $h3 ($block->look_down(_tag => 'h3')) { # oder wie du den passenden "h3" Tag findest next if($h3->as_text() !~ /D-Lib Magazine/i); # Eine Ebene höner -> Ein Element weiter "p" my $p=$h3->parent()->content()->[$h3->pindex()+1]; if($p && ref($p) && $p->tag() eq 'p') { #################################### # suche nach Tag "a" my $ahref=$p->look_down(_tag=>'a'); if($ahref && $ahref->attr('href')) { $contents= $ahref->attr('href'); last; } #################################### # alternativ: for my $ahref ($p->content_list) { if($ahref && ref($ahref) && $ahref->tag() eq 'a' && $ahref->attr('href')) { $contents= $ahref->attr('href'); last outer; } } #################################### # alternativ2: (wenn man weiß wo das Element ist) my $ahref = $p->content()->[5] if($ahref && ref($ahref) && $ahref->attr('href')) { $contents= $ahref->attr('href'); last; } } } if($contents) { ... }
      
      EDIT: pq hat mich darauf gebracht.
      
      So geht es sicher auch:
      
      Code (perl): (dl )
      
      1 2 3 4 5
      
      my $contents=$html->look_down(_tag=>'a',sub{$_[0]->as_text()=~/Table of Contents/i && $_[0]->attr('href')}); if($contents->attr('href')) { ... }
      
      Last edited: 2010-04-14 17:20:16 +0200 (CEST)
      - +8 replies
      - vitopetre
        
        2010-04-15 00:32
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Zum wiederholten mal vielen DANK an TOPEG und die anderen Antwortenden.
        
        Ich muss jetzt nur noch aus diesem Stück Quelltext die ISSN und doi holen, aber irgendwie spucken alle meine Versuche kein Ergebnis aus, muss ich wegen <br /> etwas besonderes beachten?
        
        <p class="blue">C U R R E N T  I S S U E<br />
        T A B L E   O F   C O N T E N T S<br />
        
        M A R C H/ A P R I L   2 0 1 0<br />
        Volume 16, Number 3/4<br /><br />
        doi:10.1045/march2010-contents<br />
        ISSN: 1082-9873
        </p>
        
        Hier mal meine leider ergebnisarme Fortsetzung von dem vorher von topeg geposteten Code:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
        
        if($contents) { my $content_data=get($contents); my $html2 = HTML::TreeBuilder->new(); $html2->parse($content_data); for my $p ($html2->look_down(_tag => 'p')) { next if($p->as_text() !~ /ISSN:/i); } if($p) { my $doi=$p->content()->[10]; $values{doi}=$doi if($doi); my $issn=$p->content()->[12]; $values{issn}=$issn if($issn); } $html2->delete(); }
        
        Was mach ich falsch und was genau macht das „outer:“ in dem vorangehenden Stück Code?
        
        Ich hoffe, dass ich euch jetzt dann bald in Frieden lassen kann!
        
        Ihr seid SUPER – DANKE!!!
        
        Ach ja: Der Dozent meinte, dass das absolut o.k. ist, wenn ich frage und alles was ich bis jetzt noch nicht verstehe muss ich für die Arbeit sowieso nochmal genau recherchieren, denn ich muss ja auch erklären was das Programm, wo gerade macht und warum da genau diese Zeichenkette steht – sobald das ganze läuft, werde ich euch in Ruhe lassen und alles nochmal sorgsam aufarbeiten, was ihr mich gelehrt habt!
        
        +7 replies
        
        topeg
        
        2010-04-15 01:14
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Das funktionierte bei dir nicht weil außerhalb der for schleife $p nicht definiert ist.
        Der Ansatz ist aber grundsätzlich richtig. Auch die Stellen stimmen. Aber hier kannst du auch explizit nach den Daten suchen, da sie einen eindeutigen String besitzen.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
        
        if($contents) { my $content_data=get($contents); my $html2 = HTML::TreeBuilder->new(); $html2->parse($content_data); for my $p ($html2->look_down(_tag => 'p')) { next if($p->as_text() !~ /ISSN:/i); # # so geht das natürlich # my $doi=$p->content()->[10]; # $values{doi}=$doi if($doi); # my $issn=$p->content()->[12]; # $values{issn}=$issn if($issn); # wenn du dir nicht sicher bist wo genau die Daten stehen: for my $line ($p->content_list()) { # wir suchen keine "HTML::Element" Objekte (hier das <br />) # einfacher text gibt bei "ref" "false" zurück next if(ref($line)); # reguläre Ausdrücke zum finden der Zeilem mit "doi:" und "ISSN:" # gleichzeitiges holen der gesuchten Daten in "$1"; $values{doi}=$1 if($line=~/doi:(.+?)$/i); $values{issn}=$1 if($line=~/ISSN:(.+?)$/i); } # schleife abbrechen last; } $html2->delete(); }
        
        EDIT:
        
        Du stehst noch vor einem anderen Problem.
        unter Umständen hast in $contents eine relative Pfadangabe. "../contents.html" oder so was. Das kannst du so nicht mit get holen, da weder Protokoll noch Server angegeben ist. Benutze URI um die richtige URL zu ermitteln:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
        
        use URI; ... # nutze "URI" um relative Pfade mit einer Vollständigen URL # in absolute um zu wandeln # EDIT: Das ist falsch im Zusammenhang mit dem restlichen Code # v #my $url_contents=URI->new_abs($contents,$values->{link}); # EDIT: # hier haben wir ja einen Hash und keine Hash-Referenz # Richtig: my $url_contents=URI->new_abs($contents,$values{link}); my $content_data=get($url_contents); ...
        
        Last edited: 2010-04-15 03:19:35 +0200 (CEST)
        
        +4 replies
        
        vitopetre
        
        2010-04-15 02:56
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Ich glaube, das ist jetzt das was ich von anfang an mit meiner Frage meinte, wie ich jetzt weiter auf die zweite Website komme.
        
        Irgendwo hakt das ganze aber immer noch, der PC sagt mir:
        
        Global symbol "$values" requires explicit package name...
        
        Can't use an undefined value as a HASH reference...
        
        Wie funktioniert das denn da mit dem base argument und warum benutzt du dafür $values?
        
        +3 replies
        
        topeg
        
        2010-04-15 03:15
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Mein Fehler.
        
        die Stelle: $values->{link} ist falsch. Aus Gewohnheit greife ich auf eine Hash-Referenz zu. Das kann natürlich nicht funktionieren. Richtig ist: $values{link} Das ist der Hash Eintrag.
        
        In $values{link} steht ja die URL zur Seite auf der du dann $contents suchst. Wenn du von da aus einen relativen Pfad hast dann ist er bezüglich dem Verzeichnis in dem die aufgerufene Seite ist.
        
        Angenommen du hast http://test.de/tests/test1.html und in der Seite "test1" hast du ein Link ../beschreibung/test1.html. So muss das im Browser zu http://test.de/beschreibung/test1.html zusammen gesetzt werden. Das macht das URI Modul. Mit "new_abs" erzwingst du gleich den absoluten Pfad.
        
        +2 replies
        
        vitopetre
        
        2010-04-15 18:48
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Und wieder will es nicht:
        
        "Use of uninitialized value in subroutine entry"
        
        das Problem ist glaub ich, dass ich nicht ganz zurück muss zu:
        
        http://www.dlib.org/
        
        sondern von http://www.dlib.org/dlib/march10/03contents.html
        
        auf http://www.dlib.org/dlib/march10/manghi/03manghi.h...
        
        kommen muss, wenn ich dich richtig verstanden habe generiert er aber durch deinen Befehl jetzt http://www.dlib.org/03contents.html oder?
        (Das ist glaub ich das, was auch murphy gemeint hat.)
        
        Kann ich das irgendwie bei Treebuilder umsetzten ohne das ganze jetzt nochmal mit XML::LibXML alles neu zu schreiben oder ist XML::LibXML jetzt die einzige Lösung?
        
        Wie gesagt, nochmal VIELEN VIELEN DANK für eure HILFE und Kommentare!!!
        
        topeg
        
        2010-04-15 20:37
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Ja du hast recht. Es liegt tatsächlich daran, dass weitergeleitet wird. Das Probblem lässt sich mit "LWP::Simple" nicht lösen. Du musst auf LWP::UserAgent umsteigen.
        
        aus einem "get" wird dann:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
        
        # Das ist das LWP::UserAgent-Objekt, # über das du nun alle Zugriffe machst # Das sollte recht früh initalisiert werden my $http_get=LWP::UserAgent->new(); ... # irgend ein link: my $site='http://www.dlib.org/rss/dlib.rss'; ... my $response=$http_get->get($site); unless($response->is_success()) { die(qq(ERROR: could not get "$site" MESSAGE:).$response->as_string()."\n"); } print "REAL URL:".$response->base()->as_string()."\n"; my $xml_data=$response->decoded_content(); ...
        
        Selbst verständlich kannst du auch nur Warnungen ausgeben, oder eine if-else Struktur mit alternative erzeugen. "die" halt am "einfachsten".
        
        Das "HTTP::Response"-Objekt in "$response" hast die Methode "base" mit der man die URL (ein "URI::http"-Objekt) bekommt, mit der die Seite vom Server geholt wurde. Die muss man verwenden, wenn man relative Links auf der Seite in absolute umwandeln will.
        
        +2 replies
        
        murphy
        
        2010-04-15 12:28
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        Auch auf die Gefahr hin, altklug zu wirken: Man sollte nicht nur diese URL sondern auch alle anderen, die man in den XML- und HTML-Dokumenten antrifft jeweils relativ zur URL des Dokumentes selbst interpretieren. In meinem ersten Beitrag in diesem Thread habe ich das auch versucht so zu machen, allerdings habe ich noch nicht berücksichtigt, dass man relativ zu echten URL des Dokumentes arbeiten muss, nicht relativ zu der URL, die man benutzt hat, um das Dokument abzurufen, denn es könnte ja ein HTTP-Redirect dazwischen liegen -- gerade bei den DOI-basierten URLs ist das in der Regel auch der Fall!
        When C++ is your hammer, every problem looks like your thumb.
        
        murphy
        
        2010-04-15 15:32
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        Anmerkung am Rande: Bei Verwendung von XML::LibXML kann man die wahre URI des Dokumentes aus dem DOM auslesen:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8
        
        use URI; use XML::LibXML; my $document = XML::LibXML->new()->parse_html_file('http://www.example.com/') or die 'Could not load page'; my $document_uri = URI->new($document->URI); my $link_uri = URI->new_abs($document->findvalue('//a[1]/attribute::href'), $document_uri); say "$link_uri";
        
        When C++ is your hammer, every problem looks like your thumb.

View all threads created 2010-04-11 23:27.