3 Fragen: Trefferliste umstrukturieren, mit gefunden Links weiterarbeiten + wie kann ich nur Teile eines Treffers anzeigen? (Allgemeines zu Perl)

[thread]14930[/thread]

3 Fragen: Trefferliste umstrukturieren, mit gefunden Links weiterarbeiten + wie kann ich nur Teile eines Treffers anzeigen?

Leser: 22

Articles: hide open all | hide show old branches

Teilbaum:
Detailfragen (15 Artikel) 2010-04-16 11:29

+48 replies
vitopetre

2010-04-11 23:27
User since
2010-02-14
25 Artikel
BenutzerIn
Hallo liebe Perl-Forum Rocker,

hier ist wieder vito der nervige kleine Anfänger.

Ich hab mich jetzt durch Teile des Eulen-Buchs und des Buches "Beginning Perl" von James Lee durchgearbeitet, aber irgendwie hab ich immer noch große Probleme, vor alllem, weil ich kaum noch Zeit habe, mein Programm fertig zu stellen und ich auch deswegen viele Dinge in diesen Büchern nur überfliegen kann. Ich muss gestehen, dass ich meine Aufgabe echt unterschätzt habe und jetzt merke, dass man sich sehr gewissenhaft und langfristig in Perl einarbeiten muss; was mich aber nicht davon abhalten wird, dies nachdem ich mit dieser Aufgabe fertig bin auch gewissenhaft und ohne Zeitdruck zu tun.

Jetzt zu meinen Fragen:

Folgendes Programm ist ein Teil des Programmes, dass ich schreibe:
Code (perl): (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

use LWP::Simple; $seite=get("http://www.dlib.org/rss/dlib.rss"); $seite=~ s/&.+?;/_/g; #entfernt alle mit &-beginnenden HTML-Sonderzeichen und ersetzt diese durch einen Unterstrich ( _ ) $stelle=0; $anfang=index($seite,"</channel>",$stelle); #hier soll das Ausschneiden anfangen while ($anfang>=0) { $ende=index($seite,"</rdf:RDF>",$anfang); $item=substr($seite,$anfang,$ende-$anfang); my @article = ($item =~ m/<title>(.+)<\/title>/g); foreach my $x (@article) {print "TI:$x\n\n " }; my @link = ($item =~ m/<link>(.+)<\/link>/g); foreach my $x (@link) {print "LI:$x\n\n " }; my @description = ($item =~ m/<description>(.+) by/g); foreach my $x (@description) {print "PT:$x\n\n " }; $anfang=index($seite,"<item>",$anfang+1); #Schleife um das ganze für den ganzen Quelltext zu machen! }
Jetzt habe ich dazu folgende Fragen:

1. Als Resultat des Programmes bekomme ich eine Liste die so aussieht:

TI:An Introduction to the March/April Issue
TI:Realizing and Maintaining Aggregative Digital Library Systems: D-NET Software Toolkit and OAIster System
TI:Using Omeka to Build Digital Collections: The METRO Case Study
TI:Museum Data Exchange: Learning How to Share
TI:Crowdsourcing: How and Why Should Libraries Do It?
TI:An Approach to Open Access Author Payment
TI:Berlin 7: Open Access Reaching Diverse Communities
TI:In Brief: HumBox
TI:In Brief: CACAO Project Overview
TI:In Brief: Digital Classicist Summer Seminar Series 2010
TI:In Brief: The Wellcome Arabic Manuscript Cataloguing Partnership
TI:In Brief: Frontiers of Science - Science Fact in a Comic Strip

LI:http://dx.doi.org/10.1045/march2010-editorial
LI:http://dx.doi.org/10.1045/march2010-manghi
LI:http://dx.doi.org/10.1045/march2010-kucsma
LI:http://dx.doi.org/10.1045/march2010-waibel
LI:http://dx.doi.org/10.1045/march2010-holley
LI:http://dx.doi.org/10.1045/march2010-king
LI:http://dx.doi.org/10.1045/march2010-giglia
LI:http://www.dlib.org/dlib/march10/03inbrief.html#DICKENS
LI:http://www.dlib.org/dlib/march10/03inbrief.html#BOSCA
LI:http://www.dlib.org/dlib/march10/03inbrief.html#MAHONY
LI:http://www.dlib.org/dlib/march10/03inbrief.html#HENSHAW
LI:http://www.dlib.org/dlib/march10/03inbrief.html#COLEMAN

PT:Editorial
PT:Article
PT:Article
PT:Article
PT:Opinion
PT:Conference Report

Jetzt will ich aber diese Treffer nicht so angeordnet haben, sondern so, dass die Angaben die im Quelltext zusammengehören auch hier zueinander geordnet werden, also z. B.:

TI:An Introduction to the March/April Issue
LI:http://dx.doi.org/10.1045/march2010-editorial
PT:Editorial

TI:Realizing and Maintaining Aggregative Digital Library Systems: D-NET Software Toolkit and OAIster System
LI:http://dx.doi.org/10.1045/march2010-manghi
PT:Article

und so weiter

Außerdem will ich nur diejenigen Treffer, die auch für ALLE Kategorien einen Treffer liefern, habt ihr eine Idee, wie man das machen kann?

2. Muss ich dem Perl Programm klar machen, dass es zu den in der Liste angegebenen Links gehen soll, um dort weitere Informationen zu holen, wie sagt man das auf Perl?

3. Muss ich nicht nur die Art des Artikels angeben (PT:Article, Report, etc.), sondern auch den Autor bzw. die Autoren, die noch in der gleichen Klammer <description>(.+) <\/description> stehen, wie sage ich Perl, dass es mir zuerst nur den Teil des Treffers bis zum "by" als "PT: ..." anzeigen soll und dann die Trefer nach dem "by" als "AU: ..., AU: ..., etc."?

So wie ich das ganze jetzt geschrieben habe funktionierts, aber nur für "PT:":
Code (perl): (dl )

1 2

my @description = ($item =~ m/<description>(.+) by/g); foreach my $x (@description) {print "PT:$x\n\n " };
So kriege ich zwar alles, aber ich weiß eben nicht, wie bzw. ob ich diesen Treffer dann noch weiter verarbeiten kann:
Code (perl): (dl )

1 2

my @description = ($item =~ m/<description>(.+) <\/description>/g); foreach my $x (@description) {print "PT:$x\n\n " };
So, dass sind jetzt wieder viele doofe Fragen, ich hoffe, dass ihr mir die eine oder andere davon beantworten könnt und ihr nicht allzusehr von mir genervt seid.

Vielen Dank

Vito
- +45 replies
- topeg
  
  2010-04-12 00:01
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  Module wurden erfunden um benutzt zu werden :-)
  XML::Simple nimmt dir das ganze zerlegen ab.
  
  Alles was du noch machen musst ist das auslesen:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
  
  #!/usr/bin/perl use strict; use warnings; use LWP::Simple qw(get); use XML::Simple; #use Data::Dumper; my $xml_data=get("http://www.dlib.org/rss/dlib.rss"); my $xml_ref=XMLin($xml_data); #print Dumper($xml_ref); #Liste mit den gesuchten Einträgen my @items=(); for my $item (@{$xml_ref->{item}}) { my %values=(); $values{title}=$item->{title}; $values{link}=$item->{link}; $values{desc}=''; # Nicht immer ist "description" hesetzt, # darum ist es nötig Erst abzufragen ob das Elemement vorhanden ist # und dann den gewünschten Wert holen $values{desc}=$1 if($item->{description} and $item->{description}=~m/^(.+?)\s+by/); # Referenz auf "%values" an das Array anhängen; push(@items,\%values); } for my $item (@items) { print "Title = ".$item->{title}."\n"; print "Link = ".$item->{link}."\n"; print "Beschreibung = ".$item->{desc}."\n"; print '#'x80,"\n"; }
  
  Und da hast du auch gleich die Hilfe, die du suchtest, die Lösung sind verschachtelte Strukturen. Packe in ein Array, welches alle gewünschten Einträge enthält, eine Hash-Referenz in die du die Dinge, welche zusammengehören kommen.
  Last edited: 2010-04-12 00:03:29 +0200 (CEST)
  - +44 replies
  - vitopetre
    
    2010-04-12 01:02
    
    User since
    2010-02-14
    25 Artikel
    BenutzerIn
    
    Wie immer bin ich total fasziniert mit welcher Geschwindigkeit ihr antwortet!
    
    Vielen Dank für die Antworten!!!
    
    Was ich gerne wissen würde ist, kann ich Perl sagen: Zeige mir keinen Treffer (also auch keinen Titel oder Link) wenn ich KEINEN Treffer für "description" bekomme?
    
    Oder kann ich den Suchbereich des Quelltextes irgendwie einschränken, so dass ich sage, ich such nur bis zur letzten "description", geht sowas mit so einem Modul auch oder muss ich dann wieder zurück in mein Anfänger-Perl-Programm um da den Anfangs- und Endbereich einzuschränken?
    
    Was mache ich denn jetzt, wenn der Quelltext des Links der in der Seite steht NICHT XML sondern HTML ist? XML-Simple wird ja dann wohl nicht mehr funktionieren oder?
    
    Danke topeg, pq und all ihr anderen aktiven Perl-Forum-Weisen - ihr seid super!
    Last edited: 2010-04-12 01:09:38 +0200 (CEST)
    - +43 replies
    - topeg
      
      2010-04-12 01:11
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Das ist nicht weiter schwer:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
      
      #!/usr/bin/perl use strict; use warnings; use LWP::Simple qw(get); use XML::RSS; #use Data::Dumper; my $xml_data=get("http://www.dlib.org/rss/dlib.rss"); my $rss = XML::RSS->new; $rss->parse($xml_data); #print Dumper($xml_ref); #Liste mit den gesuchten Einträgen my @items=(); for my $item (@{$rss->{item}}) { # nur wenn "description" gesetzt ist. if($item->{description}) { my %values=(); $values{title}=$item->{title}; $values{link}=$item->{link}; $values{desc}=''; $values{desc}=$1 if( and $item->{description}=~m/^(.+?)\s+by/); # Referenz auf "%values" an das Array anhängen; push(@items,\%values); } } for my $item (@items) { print "Title = ".$item->{title}."\n"; print "Link = ".$item->{link}."\n"; print "Beschreibung = ".$item->{desc}."\n"; print '#'x80,"\n"; }
      - +42 replies
      - vitopetre
        
        2010-04-12 02:28
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Irgendwie funktioniert das mit dem XML::RSS nicht bei mir, auf jeden fall kriege ich so kein Ergebniss, wenn ich allerdings alles bis Zeile 18 durch die Zeilen deines ersten Ansatzes ersetze und in Zeile 28 das "( and", sowie die dazugehörige schließende Klammer entferne, funktioniert das schon mal super! Also nochmal vielen vielen Dank!!!
        
        Für Zeile 28 bekomme ich übrigens folgende Fehlermeldung:
        
        syntax error at C:\UNI\HS\PERL\topeg03.pl line 28, near "( and"
        syntax error at C:\UNI\HS\PERL\topeg03.pl line 33, near "}"
        Execution of C:\UNI\HS\PERL\topeg03.pl aborted due to compilation errors.
        
        Übrigens bin ich nicht ganz sicher, ob ich mich richtig ausgedrückt habe, was das mit weiterarbeiten mit den Links auf der Seite betrifft.
        
        Das Programm soll immer mal wieder auf der Website (am besten wohl über den RSS-Feed?) nachschauen, ob es schon neue Artikel gibt, da nicht alle Infos, die ich suche im Quelltext des RSS-Feeds stehen, muss ich von da weiter zu den einzelnen Artikeln also den Links, um aus dem dort vorhandenen Quelltext weitere Infos (z. B. die Autoren des Artikels) zu holen. Eigentlich muss ich sogar noch weiter, über den ersten Link zu einem Link auf der Seite des Artikels und auch von dort noch ein paar Infos holen.
        
        Wie sage ich Perl also: Hol dir den neuesten Rss-Feed und ziehe da die Infos die das Programm von topeg holt, dann geh weiter auf die Links und hole dort wieder Infos und Links, gehe dann auf eine speziellen Link und hole dort wieder ein paar Infos?
        
        Ausserdem weiß ich immer noch nicht, was ich mache, wenn diese Seiten dann HTML nicht XML sind. Dann muss ich doch wieder auf meine Methode zurückgreifen oder?
        
        Danke für eure Antworten!
        
        In tiefer Demut.
        
        Vito
        Last edited: 2010-04-12 02:31:17 +0200 (CEST)
        
        +36 replies
        
        topeg
        
        2010-04-12 04:51
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        ja da ist ein Fehler in der Zeile 28 das "and" ist zu viel. Die Zeile müsste lauten:
        
        Code (perl): (dl )
        
        $values{desc}=$1 if( $item->{description}=~m/^(.+?)\s+by/);
        
        und Zeile 18 da ist ein "s" zu wenig:
        
        Code (perl): (dl )
        
        for my $item (@{$rss->{items}})
        
        Du meinst du willst so was machen?:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
        
        #!/usr/bin/perl use strict; use warnings; use LWP::Simple qw(get); use XML::RSS; use HTML::TreeBuilder; use Data::Dumper; my $xml_data=get("http://www.dlib.org/rss/dlib.rss"); my $rss = XML::RSS->new(); $rss->parse($xml_data); #print Dumper($rss); #Liste mit den gesuchten Einträgen my @items=(); for my $item (@{$rss->{items}}) { # nur wenn "description" gesetzt ist. if($item->{description}) { my %values=(); $values{title}=$item->{title}; $values{link}=$item->{link}; $values{desc}=''; $values{desc}=$1 if($item->{description}=~m/^(.+?)\s+by/); # welche Elemente werden noch gebraucht? $values{autor}=''; $values{datum}=''; my $html_data=get($item->{link}); my $html = HTML::TreeBuilder->new(); $html->parse($html_data); #... # Lese die Daten, die du haben willst # keine Ahnung wo du sie suchst und was du haben willst... #... $html->delete(); # Referenz auf "%values" an das Array anhängen; push(@items,\%values); } } for my $item (@items) { print Dumper($item); }
        
        zum Parsen von HTML siehe:
        http://search.cpan.org/~petek/HTML-Tree-3.23/lib/H...
        http://search.cpan.org/~petek/HTML-Tree-3.23/lib/H...
        Last edited: 2010-04-12 04:53:27 +0200 (CEST)
        
        +35 replies
        
        vitopetre
        
        2010-04-12 21:45
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Erstmal wieder vielen Dank TOPEG!!!
        
        Das funktioniert alles schon mal sehr gut, auch wenn das ganze jetzt sehr langsam ist.
        
        Ich glaube bei HTML versuche ich doch lieber mit Regex weiterzuarbeiten, damit kenne ich mich zwar auch nicht richtig aus, aber wenigsten kann ich mir da Schritt für Schritt meine gewünschten Zeilen wie in dem Ursprungsprogramm holen, denn in den HTML-Dingern gibt es leider viel zu viele Tags, die alles nur komplizierter als einfacher machen.
        
        Was ich dich fragen wollte: Jetzt dauert das Programm ganz schön lange, wahrscheinlich weil jetzt jede auf dem RSS-Feed verlinkte Seite geparst wird, geht das nicht irgendwie ohne soviel Rechenleistung zu ziehen?
        
        Oder muss ich meinem PC nur irgendwie sagen, dass er Perl mehr Arbeitsspeicher etc. zuweisen soll?
        
        Vielen Dank
        
        Vito
        
        murphy
        
        2010-04-12 22:20
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        2010-04-12T19:45:41 vitopetre
        [...]
        Ich glaube bei HTML versuche ich doch lieber mit Regex weiterzuarbeiten, [...] denn in den HTML-Dingern gibt es leider viel zu viele Tags, die alles nur komplizierter als einfacher machen.
        [...]
        
        Genau deswegen sollte man es eben nicht mit regulären Ausdrücken machen, denn dann kommt man garantiert nicht mit unvorhergesehenen Tagkombinationen zurecht ;-)
        When C++ is your hammer, every problem looks like your thumb.
        
        pq
        
        2010-04-12 22:22
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2010-04-12T19:45:41 vitopetre
        Ich glaube bei HTML versuche ich doch lieber mit Regex weiterzuarbeiten
        
        HTML parst man nicht mit regexes.
        du bekommst hier tips, die dir zeigen, wie wunderbar einfach und lesbar das gnze ist, wenn man schon vorhandene module benutzt, und du willst weiter deine komplizierten, fehleranfälligen regexes verwenden, die schon dann nicht mehr funktionieren könnten, wenn sich der quelltext ändert? hast du zuviel zeit?
        
        Quote
        Was ich dich fragen wollte: Jetzt dauert das Programm ganz schön lange, wahrscheinlich weil jetzt jede auf dem RSS-Feed verlinkte Seite geparst wird
        
        ja nun, was erwartest du denn?
        
        Quote
        geht das nicht irgendwie ohne soviel Rechenleistung zu ziehen?
        
        rechenleistung? gerade sagtest du noch, es dauert lange. das hat ja nicht direkt was mit rechenleistung zu tun.
        dauert es nur lange oder geht die cpu auf 100%?
        wenn eine webseite nach der anderen geholt werden muss, muss das halt über die leitung, das dauert nunmal, aber in der zeit, wo der server antwortet, wartet dein skript.
        wenn du herausfinden willst, wo was lange dauert, kannst du das ja messen (einfach mal ein paar Time::HiRes-ausgaben reinpacken).
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +32 replies
        
        topeg
        
        2010-04-12 23:02
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        2010-04-12T19:45:41 vitopetre
        Das funktioniert alles schon mal sehr gut, auch wenn das ganze jetzt sehr langsam ist.
        
        Das liegt primär am Seitendownload. Das Parsen geht ganz schnell teste das einfach mal mit einer lokalen Seite.
        
        2010-04-12T19:45:41 vitopetre
        Ich glaube bei HTML versuche ich doch lieber mit Regex weiterzuarbeiten, damit kenne ich mich zwar auch nicht richtig aus, aber wenigsten kann ich mir da Schritt für Schritt meine gewünschten Zeilen wie in dem Ursprungsprogramm holen, denn in den HTML-Dingern gibt es leider viel zu viele Tags, die alles nur komplizierter als einfacher machen.
        
        Ich habe mir die Seiten kurz angeschaut. Damit wirst du nicht glücklich. Die Seiten sind alle sehr unterschiedlich. Je nachdem Was du haben willst. Die Templates auf der Seite sind sehr rudimentär.
        Ich habe dir Links gegeben die sehr genau erklären wie man mit dem Modul umgeht, ließ es dir durch und wenn du nicht weiter kommst helfen wir dir wirklich gerne. Gerade weil du ein Anfänger bist rate ich dir dringend davon ab dich an Regulären ausdrücken der Komplexität zu versuchen, die du brauchst um zuverlässig an die Daten zu kommen die du haben willst. Du kannst Glück haben, aber wahrscheinlicher ist, dass du nach einer Woche übelst auf die Nase fällst.
        
        2010-04-12T19:45:41 vitopetre
        Oder muss ich meinem PC nur irgendwie sagen, dass er Perl mehr Arbeitsspeicher etc. zuweisen soll?
        Perl nimmt sich schon was es braucht. Aber die Daten müssen erst mal vollständig geholt werden, bevor man sie verarbeiten kann, je nach Internetverbindung dauert das etwas.
        
        +31 replies
        
        vitopetre
        
        2010-04-13 01:26
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Entschuldigt bitte, wenn ich mich so doof anstelle, aber ich hab die letzten Tage versucht mich in Regex einzuarbeiten und hab damit zumindest einigermaßen Fortschritte gemacht, jetzt sagt ihr mir ich darf das nicht benutzen und jetzt hab ich wieder keine Ahnung wie ich weiter machen soll.
        
        Die CPAN-Seiten sind für einen Anfänger wie mich irgendwie zu kryptisch ich verstehe einfach nicht genau wie ich das umsetzten soll.
        
        Wie sage ich denn z. B. dem Treebuilder, dass ich z. B. aus diesem Stück HTML:
        
        <head>
        <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />
        <meta name="DOI" content="10.1045/march2010-kucsma" />
        <meta name="description" content="D-Lib Magazine" />
        <meta name="keywords" content="D-Lib Magazine, Digital Libraries, Digital Library Research" />
        <link rel="metadata" href="03kucsma.meta.xml" />
        <link href="../../../style/style1.css" rel="stylesheet" type="text/css" />
        <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
        <title>Using Omeka to Build Digital Collections: The METRO Case Study</title>
        </head>
        
        z. B. die Keywords oder die DOI ausschneiden will?
        
        Warum ist denn der Treebuilder besser als der einfache HTML-Parser oder andere Module wie der Web-Scraper oder Mechanize?
        
        +18 replies
        
        topeg
        
        2010-04-13 02:26
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        2010-04-12T23:26:13 vitopetre
        ich hab die letzten Tage versucht mich in Regex einzuarbeiten und hab damit zumindest einigermaßen Fortschritte gemacht
        
        Es st nicht falsch sich mit Regulären ausdrücken auseinander zu setzten, die kann man an sehr vielen Stellen gebrauchen.
        
        2010-04-12T23:26:13 vitopetre
        jetzt sagt ihr mir ich darf das nicht benutzen und jetzt hab ich wieder keine Ahnung wie ich weiter machen soll.
        
        Wir verbieten dir nichts, wir warnen dich nur sehr ausdrücklich davor. Wenn du offen Auges in deinen Untergang läufst halten wir dich davon nicht ab. Wenn du bittest helfen wir dir sogar dabei. ;-)
        
        2010-04-12T23:26:13 vitopetre
        Die CPAN-Seiten sind für einen Anfänger wie mich irgendwie zu kryptisch ich verstehe einfach nicht genau wie ich das umsetzten soll.
        
        Kann sein. Ich hatte immer wenig Probleme damit (Außer mit Englisch)
        
        2010-04-12T23:26:13 vitopetre
        Wie sage ich denn z. B. dem Treebuilder, dass ich z. B. aus diesem Stück HTML:
        ...
        z. B. die Keywords oder die DOI ausschneiden will?
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
        
        #!/usr/bin/perl use strict; use warnings; use HTML::TreeBuilder; my $html_data=<<'HTML'; <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" /> <meta name="DOI" content="10.1045/march2010-kucsma" /> <meta name="description" content="D-Lib Magazine" /> <meta name="keywords" content="D-Lib Magazine, Digital Libraries, Digital Library Research" /> <link rel="metadata" href="03kucsma.meta.xml" /> <link href="../../../style/style1.css" rel="stylesheet" type="text/css" /> <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /> <title>Using Omeka to Build Digital Collections: The METRO Case Study</title> </head> <body></body> </html> HTML my $html = HTML::TreeBuilder->new(); $html->parse($html_data); my $doi; # wir suchen nach einem "TAG" und der soll "meta" lauten # wir gehen alle gefunden tags durch for my $meta ( $html->look_down( _tag => 'meta' ) ) { # ist das Attribut "name" gesetzt? next if(! $meta->attr('name')); # ist der inhalt von "name" "DOI"? next if( $meta->attr('name') ne 'DOI'); # ist das Attribut "content" gesetzt? next if(! $meta->attr('content')); # gefunden $doi=$meta; last; } if($doi) { # etwas wurde gefunden # Attribut "content" ausgeben print $doi->attr('content')."\n"; } $html->delete();
        
        oder mit "eingebettetem" Code:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
        
        #!/usr/bin/perl use strict; use warnings; use HTML::TreeBuilder; my $html_data=<<'HTML'; <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" /> <meta name="DOI" content="10.1045/march2010-kucsma" /> <meta name="description" content="D-Lib Magazine" /> <meta name="keywords" content="D-Lib Magazine, Digital Libraries, Digital Library Research" /> <link rel="metadata" href="03kucsma.meta.xml" /> <link href="../../../style/style1.css" rel="stylesheet" type="text/css" /> <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /> <title>Using Omeka to Build Digital Collections: The METRO Case Study</title> </head> <body></body> </html> HTML my $html = HTML::TreeBuilder->new(); $html->parse($html_data); my $doi = $html->look_down( # wir suchen nach einem "TAG" # und der soll "meta" lauten _tag => 'meta', # führe die den Code aus wenn der Tag "meta" ist: # Wenn 1 zurückgeliefert wird haben wir was wir wollen sub { # ist das Attribut "name" gesetzt? return 0 if(! $_[0]->attr('name')); # ist der inhalt von "name" "DOI"? return 0 if( $_[0]->attr('name') ne 'DOI'); # ist das Attribut "content" gesetzt? return 0 if(! $_[0]->attr('content')); # gefunden return 1; }); if($doi) { # etwas wurde gefunden # Attribut "content" ausgeben print $doi->attr('content')."\n"; } $html->delete();
        
        2010-04-12T23:26:13 vitopetre
        Warum ist denn der Treebuilder besser als der einfache HTML-Parser oder andere Module wie der Web-Scraper oder Mechanize?
        
        Nichts außer das ich es schon benutzt habe, es eine gute Erklärung hat und, meiner Meinung nach, recht Robust ist.
        Last edited: 2010-04-13 02:27:08 +0200 (CEST)
        
        vitopetre
        
        2010-04-13 13:20
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Vielen Dank, das hilft schon mal enorm weiter!
        
        Du bist echt großartig TOPEG!
        
        vitopetre
        
        2010-04-13 20:54
        
        Subtree with 16 replies: Detailfragen
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Nächste Frage zum Treebuilder:
        
        Wie sage ich dem Treebuilder gehe zu einer Stelle und nimm dir dann von da das was im nächsten Tag steht?
        
        Also z. B. ich hab jetzt die Stelle wo das Abstract anfängt folgendermaßen gefunden, jetzt will ich das was zwischen <p> <\p> steht geparst haben? Geht das irgendwie?
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7
        
        my $abstract; for my $h3 ( $html->look_down( _tag => 'h3')) { next if($h3->as_text ne 'Abstract'); $abstract = $h3->as_text; last; }
        
        Hier der Teil des zugehörigen Quelltextes:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
        
        <h3 class="blue">Abstract</h3> <p class="blue"> The definition and purpose of crowdsourcing and its relevance to libraries is discussed with particular reference to the <a href="http://newspapers.nla.gov.au">Australian Newspapers</a> service, <a href="http://familysearchindexing.org">FamilySearch</a>, <a href="http://wikipedia.org">Wikipedia</a>, <a href="http://www.pgdp.net">Distributed Proofreaders</a>, <a href="http://www.galaxyzoo.org">Galaxy Zoo</a> and <a href="http://mps-expenses.guardian.co.uk">The Guardian MP's Expenses Scandal</a>. These services have harnessed thousands of digital volunteers who transcribe, create, enhance and correct text, images and archives. Known facts about crowdsourcing are presented and helpful tips and strategies for libraries beginning to crowdsource are given. </p>
        
        Wie immer bin ich für jede hilfreiche Antwort sehr dankbar!
        
        mod-edit pq: code-tags um html hinzugefügt
        
        mod-edit pq: teilbaum
        Last edited: 2010-04-16 11:29:59 +0200 (CEST)
        
        +8 replies
        
        bianca
        
        2010-04-13 08:37
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-12T23:26:13 vitopetre
        Entschuldigt bitte, wenn ich mich so doof anstelle, aber ich hab die letzten Tage versucht mich in Regex einzuarbeiten und hab damit zumindest einigermaßen Fortschritte gemacht, jetzt sagt ihr mir ich darf das nicht benutzen und jetzt hab ich wieder keine Ahnung wie ich weiter machen soll.
        
        <MEINE_PERÖNLICHE_MEINUNG_UND_ERFAHRUNG>
        Lass Dich nicht entmutigen. Was hier alles gesagt wird ist alles richtig. Vieles davon allerdings sehr theoretisch und verallgemeinert. Ich parse auch einige Seiten teils mit Modulen und teils mit Regex und das klappt wundervoll!
        Das Parsen läuft bei mir überwiegend per CRON im Hintergrund und hat in nun über 7 Jahren in 3 größeren Projekten vielleicht alles in allem 10 mal kleinere Anlässe für Anpassungen gegeben, ansonsten läuft das wie ein Uhrwerk. Und die Hälfte der Anpassungen beruhten auf Anpassung meines eigenen Codes aufgrund mangelnden Wissens meinerseits bis dato und nicht aufgrund von Änderungen bei den geparsten Seiten. Es erkennt dank Regex sogar sämtliche Fehler in den Daten, die der Anbieter selbst nicht bemerkt :)
        
        Meine Praxiserfahrung besagt einfach, dass Seitenanbieter in der Regel von einmal angestammtem Code-Aufbau (bezogen auf HTML) nur selten abweichen. Und dann geht das mit Regex sehr gut. Mag sein, dass die von mir geparsten Seiten dahingehend selten sind aber ich weiß es einfach von mir selbst. Meine eigenen Seiten ändern sich vom Aufbau/Syntax her auch eher selten. Und wenn man mal inhaltlich etwas anfasst, dann doch meist im gleichen Stil und gleicher Syntax wie das bestehende, oder? Man will sich ja nichts zerschießen und auch ohne erneute komplette Einarbeitung mal schnell was ändern/ergänzen.
        
        Insofern: Regex und HTML sind nicht unmöglich und - je nach Fall - sogar ganz wunderbar geeignet für HTML!
        </MEINE_PERÖNLICHE_MEINUNG_UND_ERFAHRUNG>
        
        Edit: Und was wollte ich damit sagen? Ich wollte sagen, entscheide nicht dogmatisch, wie Du es löst nach dem Motto, "man parst HTML nicht mit Regex".
        Lasse Faktoren wie Beständigkeit der Anbieterseite, eigener Lerneffekt, eigene zur Verfügung stehende Zeit für das Projekt, Spaß an der Arbeit genauso einfließen, SOLANGE es sich hier nicht um eine berufliche Angelegenheit oder Auftragsarbeit handelt.
        Last edited: 2010-04-13 08:46:39 +0200 (CEST)
        10 print "Hallo"
        20 goto 10
        
        +6 replies
        
        vitopetre
        
        2010-04-13 13:28
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Danke Bianca,
        
        genau auf diesen Code-Aufbau wollte ich mich auch beziehen und ich bin auch der Meinung, dass sich der nicht so extrem verändert. Trotzdem werde ich jetzt mal versuchen es nach der Art und Weise von togeg zu machen, da ich ja keine Antworten auf meine ursprünglichen Fragen bekommen habe und deshalb die letzten Tage verzweifelt und leider ziemlich erfolglos versucht habe mich in den Treebuilder einzuarbeiten und damit weiterzumachen, weiß ich ja sowieso nicht, wie ich mit den Regex weiter machen soll...
        
        Danke, dass du Verständnis für mich zeigst!
        
        +5 replies
        
        murphy
        
        2010-04-13 13:41
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        2010-04-13T11:28:46 vitopetre
        [...]
        Trotzdem werde ich jetzt mal versuchen es nach der Art und Weise von togeg zu machen, da ich ja keine Antworten auf meine ursprünglichen Fragen bekommen habe
        [...]
        
        Hmm, welche Fragen sind denn unbeantwortet geblieben? Es wurden doch diverse Methoden genannt, wie Du den RSS-Feed und auch die verlinkten HTML-Dokumente zerlegen und nach Informationen durchsuchen kannst. Da kannst Du Dir nun eine Technik aussuchen und anwenden.
        
        Wenn Du gar nicht recht weiter weißt, solltest Du vielleicht einfach mal sagen, welches Resultat genau Dein Programm aus dem von Dir angegebenen RSS-Feed generieren sollte, dann könnte man Dir zielgerichtetere Tips geben, wie Du genau an die gewünschten Informationen kommst und nicht nur, wie man das generell macht.
        When C++ is your hammer, every problem looks like your thumb.
        
        +4 replies
        
        vitopetre
        
        2010-04-13 14:57
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Klar hab ich von euch Antworten bekommen, wie man das macht, aber die Lösung die ihr mir zeigt hat mir eben nicht gezeigt wie ich mit meinem Programm weitermachen soll, sondern dass ich jetzt auf der Basis von Topegs-Programm das ganze versuchen werde zu Ende zu bringen.
        
        Was ich will bzw. was das Programm können soll ist folgendes:
        
        Es soll auf die angegebene Seite gehen, sich dort die neusten Artikel holen (aber eigentlich auch die alten Artikel verarbeiten können).
        
        Das Programm soll mir zu jedem Artikel sagen können:
        1. wer die Autoren sind (und dabei jeden einzeln aufzählen)
        2. wie der Artikel heißt
        3. welche Art von Artikel es ist (Editorial, Report, Opinion, etc.)
        4. welche DOI der Artikel hat
        5. wenn möglich das Abstract des Artikels ausspucken
        6. wie die Zeitschrift heißt
        7. um welche Ausgabe der Zeitschrift es sich handelt
        8. um welche Nummer der Zeitschrift es sich handelt
        9. in welchem Jahr diese Ausgabe erschienen ist
        10. welcher Link zu dieser Ausgabe führt
        11. welche ISSN diese Ausgabe hat
        
        Aber bitte schreibt mir jetzt kein Programm, dass das alles kann, denn das ganze ist Teil einer Hausarbeit für die Uni und ich habe jetzt schon Panik, dass wenn ich jetzt mit dem Programm von TOPEG weiterarbeite, das ganze als Plagiat gezählt wird, weil das Programm ja nachweislich nicht von mir sondern aus dem Internet kommt.
        
        +2 replies
        
        bianca
        
        2010-04-13 15:09
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2010-04-13T12:57:38 vitopetre
        Aber bitte schreibt mir jetzt kein Programm, dass das alles kann, denn das ganze ist Teil einer Hausarbeit für die Uni
        
        Endlich ist die Katze aus dem Sack :)
        Dann finde ich es je nach Aufgabenstellung um so reizvoller, mal einen relativ einfach umzusetzenden Ansatz (z.B. mit Regex) zu verwenden, dies entspr. zu begründen und gleichzeitig auf die damit verbundenen Nachteile hinzuweisen. Um was geht es denn bei der Aufgabe? Perfekte Umsetzung? Ganz allein das Ergebnis per Jetzt? Die Dauerhaftigkeit und Wartbarkeit des Codes? Die Dauer für das erste Ergebnis?
        
        Da würde ich nämlich in der Tat aufpassen, dass am Ende nicht ein Ergebnis rauskommt, was einem Standard Perlanfänger eigentlich in der gegebenen Zeit nicht realistisch zuzumuten ist. Das fällt auf :)
        10 print "Hallo"
        20 goto 10
        
        vitopetre
        
        2010-04-13 16:00
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Ich muss sowieso erst nochmal mit unserem Dozenten Reden, wie gesagt ich will nicht, dass das ganza als Plagiat gewertet wird. Ich werde dem Dozenten sagen, dass ich eure Hilfe in Anspruch genommen habe und ihn fragen in wie weit das o.k. ist und falls nicht werde ich die Arbeit nicht abgeben und mich lieber dieses Semester über nochmal ganz langsam und von Grund auf in Perl einarbeiten und dann hoffentlich was ganz eigenes fabrizieren können.
        
        Ehrlich gesagt schäme mich auch, dass ich immer noch so auf dem Schlauch stehe was Perl angeht und muss mich da jetzt so oder so nochmal intensiver damit beschäftigen.
        
        murphy
        
        2010-04-13 16:11
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        Ich würde zur Bestimmung der nötigen Informationen drei Quellen nutzen: Den RSS-Feed, die HTML-Seiten der einzelnen Artikel und die XML-Metainformationsdateien der einzelnen Artikel.
        
        Grobes Vorgehen:
        
        RSS-Feed laden und per XML-Parser in einen Dokumentbaum verwandeln.
        Alle <rss:item>-Tags aus dem RSS-Dokument extrahieren.
        Aus jedem Eintrag den <rss:link>-Tag extrahieren, die entsprechende Seite laden und per HTML-Parser in einen Dokumentbaum verwandeln.
        Aus jedem der HTML-Dokumente den <link rel="metadata">-Tag extrahieren, die entsprechende XML-Datei laden und per XML-Parser in einen Dokumentbaum verwandeln.
        Die gewünschten Informationen über jeden Artikel aus Metadatendokument, RSS-Dokument und HTML-Dokument (in dieser Prioritätsreihenfolge) zusammensuchen.
        
        Mögliche Quellen für die gewünschten Informationen:
        
        Quote
        wer die Autoren sind (und dabei jeden einzeln aufzählen)
        
        <creator>-Tags des Metadatendokumentes
        
        <description>-Tag des RSS-Eintrages, Inhalt ist aber kompliziert mit regulären Ausdrücken zu parsen, da sehr irregulär ;-)
        
        Quote
        wie der Artikel heißt
        
        <title>-Tag des Metadatendokumentes
        
        <title>-Tag des RSS-Eintrages
        
        <title>-Tag des HTML-Dokumentes
        
        Quote
        welche Art von Artikel es ist (Editorial, Report, Opinion, etc.)
        
        <type resource-type="work">-Tag des Metadatendokumentes
        
        <description>-Tag des RSS-Eintrages, erstes Wort ist leicht per regulärem Ausdruck extrahierbar
        
        Quote
        welche DOI der Artikel hat
        
        <identifier uri-type="DOI">-Tag des Metadatendokumentes
        
        <meta name="DOI">-Tag des HTML-Dokumentes
        
        Quote
        wenn möglich das Abstract des Artikels ausspucken
        
        Textinhalt des ersten Absatzes nach einer Überschrift mit dem Inhalt "Abstract" im HTML-Dokument.
        
        Quote
        wie die Zeitschrift heißt
        
        <serial-name>-Tag des Metadatendokumentes
        
        <meta name="description">-Tag des HTML-Dokumentes, könnte aber auch falsche Informationen liefern
        
        Inhalt der ersten Überschrift im HTML-Dokument, könnte aber auch falsche Informationen liefern
        
        Quote
        um welche Ausgabe der Zeitschrift es sich handelt
        
        <volume>-Tag des Metadatendokumentes
        
        Quote
        um welche Nummer der Zeitschrift es sich handelt
        
        <issue>-Tag des Metadatendokumentes
        
        Quote
        in welchem Jahr diese Ausgabe erschienen ist
        
        <date date-type="publication">-Tag des Metadatendokumentes, Jahreszahl lässt sich leicht mit einem regulären Ausdruck extrahieren
        
        Quote
        welcher Link zu dieser Ausgabe führt
        
        Die URL des Artikels kann aus dem
        
        <identifier uri-type="URL">-Tag des Metadatendokumentes oder
        
        <link>-Tag des RSS-Eintrages
        
        gewonnen werden. Um einen Link zur entsprechenden Ausgabe der Zeitschrift zu erzeugen, könnte man mit etwas Glück einfach die letzten Pfadelemente der URL abschneiden — sicher ist diese Methode aber nicht.
        
        Quote
        welche ISSN diese Ausgabe hat
        
        <issn>-Tag des Metadatendokumentes
        
        Da hier komplizierte Dokumentbäume im Spiel sind, würde ich alle Datenextraktionsschritte mit Hilfe von XPath erledigen, die nötigen Ausdrücke sind, im Gegensatz zu funktional ähnlichen regulären Ausdrücken, allesamt kaum eine Zeile lang! Für die Nachbearbeitung einzelner Taginhalte sind reguläre Ausdrücke aber das Mittel der Wahl :-)
        When C++ is your hammer, every problem looks like your thumb.
        
        topeg
        
        2010-04-13 13:44
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Also diesbezüglich meine Erfahrungen.
        Große Webseiten von Herstellern benutzen hoch detaillierte Templates, an denen sie alle 10 Jahre mal ändern und die einzelnen Seiten sind sich daher sehr ähnlich. So was ist nicht schwer mittels RegExp zu Parsen. Zeitungen dagegen haben meist Seiten, deren Templates sind sehr allgemein gefasst und vieles wird mit spezialisierten Modulen erzeugt und einfügt. Das sorgt für eine große Vielfalt und Veränderung der Seiten. Hier wird es sehr schwer, bis unmöglich RegExps zu nutzen. Vor allem wenn die Beiträge von "Hand" in HTML gequetscht wurden. Dann gibt es noch speziellere Plattformen (wie myspace oder wikipedia) Da mit Regulären ausdrücken ran zu wollen ist Selbstmord. Nicht nur das sich die Templates immer wieder ändern auch die Beträge der Benutzer sind sehr verschieden strukturiert und mittels Regexp kaum einheitlich zu parsen. Seiten wie Youtube ändern ständig Kleinigkeiten an der Seite, zum einen um das Parsen zu Erschweren, zum anderen um die Leute besser auf der Seite zu halten. Ganz schlimm sind Seiten von Privatpersonen, die mittels Tool oder von Hand erstellt wurden. Da muss man fast immer von Hand an die Sache, automatisch kommt man nur mit Glück an das gesuchte.
        
        Die Seite des Erstposters, ist eine Zeitungsseite. Zudem ist dort das Template (so weit ich sehe) recht minimal (Kopf, Menü, Fußnote). Der gesamte Inhalt ist frei Strukturiert, Wenn man nicht speziell Sachen aus dem Template will, kommt man mit regulären Ausdrücken nicht weit.
        
        +4 replies
        
        pq
        
        2010-04-13 10:01
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2010-04-12T23:26:13 vitopetre
        Entschuldigt bitte, wenn ich mich so doof anstelle, aber ich hab die letzten Tage versucht mich in Regex einzuarbeiten und hab damit zumindest einigermaßen Fortschritte gemacht, jetzt sagt ihr mir ich darf das nicht benutzen und jetzt hab ich wieder keine Ahnung wie ich weiter machen soll.
        
        das ist ja schön, dass du dich mit regex beschäftigt hast, aber wenn du gerade gelernt hättest, wie man eine zahnbürste benutzt, würdest du damit auch nicht den ganzen boden sauberbürsten wollen, oder?
        
        wenn du es unbedingt machen willst, bitte, aber dann gibt es halt weniger leute, die helfen. wenn jemand fragt, wie mache ich dies, und man hätte eine einfache antwort per modul, und dann heisst es, es muss per regex gemacht werden, dann lässt man die hilfe halt. aber niemand verbietet dir, dass du dir zuviel arbeit machst.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +3 replies
        
        vitopetre
        
        2010-04-13 13:37
        
        User since
        2010-02-14
        25 Artikel
        BenutzerIn
        
        Lieber pq,
        
        mit dem von dir angegeben Zitat von mir meinte ich nicht, dass ich eure Hilfe und Ratschläge nicht beherzigen möchte, ich wollte nur meine akutelle Situation erklären und dass ich momentan den Wald vor lauter Bäumen nicht sehe, weil ich das eine noch nicht kann und ihr mir jetzt was gebt, mit dem ich erst recht nicht umgehen kann - trotzdem möchte ich aber dieses Programm auf die eine oder andere Weise so schreiben, dass es funktioniert und bin euch sehr dankbar, wenn ihr mir auf welchem Weg auch immer sagt, wie ich das hinbekomme.
        
        Vielen Dank!
        
        pq
        
        2010-04-13 13:39
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2010-04-13T11:37:05 vitopetre
        Lieber pq,
        
        =~ s/r//
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        bianca
        
        2010-04-13 16:52
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        Soweit es mich betrifft, würde ich Dir auch auf dem Regex-Weg weiterhin helfen.
        Im Moment warte ich mal ab, was Deine Klärung mit der Uni betrifft. Wenn Du dann kurz sagst, welchen Stand Du hast, in welcher Richtung es weiter gehen soll und am besten konkrete Fragen stellst, bekommst Du Antwort.
        10 print "Hallo"
        20 goto 10
        
        +5 replies
        
        murphy
        
        2010-04-13 02:15
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        2010-04-12T00:28:11 vitopetre
        [...]
        Wie sage ich Perl also: Hol dir den neuesten Rss-Feed und ziehe da die Infos die das Programm von topeg holt, dann geh weiter auf die Links und hole dort wieder Infos und Links, gehe dann auf eine speziellen Link und hole dort wieder ein paar Infos?
        
        Ausserdem weiß ich immer noch nicht, was ich mache, wenn diese Seiten dann HTML nicht XML sind. Dann muss ich doch wieder auf meine Methode zurückgreifen oder?
        [...]
        
        Ein anderes Modul, über das man hier nachdenken könnte, wäre XML::LibXML, was sowohl XML als auch HTML parsen und bequem per XPath zerlegen kann.
        
        Kleines Beispiel:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
        
        use 5.010; use strict; use warnings; use URI; use XML::LibXML; # Global data my $feed_url = URI->new('http://www.dlib.org/rss/dlib.rss'); my %namespaces = ( rss => 'http://purl.org/rss/1.0/', rdf => 'http://www.w3.org/1999/02/22-rdf-syntax-ns#' ); # XML/HTML parser setup my $parser = XML::LibXML->new(); $parser->recover_silently(1); # XPath setup my $xpath = XML::LibXML::XPathContext->new(); while (my ($prefix, $url) = each %namespaces) { $xpath->registerNs($prefix, $url); } # Load feed my $feed = $parser->parse_file("$feed_url") or die 'Could not load feed'; # Find all items foreach my $item ($xpath->findnodes('/rdf:RDF/rss:item', $feed)) { my ($title, $description) = map { $xpath->findvalue("./$_/text()", $item); } qw/rss:title rss:description/; if (defined($title) && defined($description)) { say '#' x 72; say "Title: $title"; say "Description: $description"; # Determine URL of page relative to feed my $page_url = URI->new_abs($xpath->findvalue('./rss:link/text()', $item), $feed_url); if (defined($page_url)) { say "Page: $page_url"; # Load page my $page = $parser->parse_html_file("$page_url") or die "Could not load page: $page_url"; # Find all links on the page foreach my $anchor ($xpath->findnodes('//a[@href]', $page)) { my $link = URI->new_abs($anchor->getAttribute('href'), $page_url); say "Link: $link" if (defined($link)); } } } }
        
        When C++ is your hammer, every problem looks like your thumb.
        
        topeg
        
        2010-04-13 02:39
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Sicher wenn man sich mit "XPath" so wieso schon Auseinander gesetzt hat, ist "XML::LibXML" nicht schlecht.
        
        +2 replies
        
        pq
        
        2010-04-13 09:58
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        einfach HTML::Treebuilder::XPath?
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        murphy
        
        2010-04-13 12:02
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        Das ist auch gut und hat zum Beispiel den Vorteil, pures Perl zu sein, wenn mich nicht alles täuscht.
        
        Ich bevorzuge trotzdem XML::LibXML wegen der einheitlichen Schnittstelle für XML und HTML, der Unterstützung für Namespaces und der Geschwindigkeit :-)
        When C++ is your hammer, every problem looks like your thumb.
        
        Gast Gast
        
        2010-04-16 11:25
        
        Quote
        $parser->parse_file("$feed_url")
        $parser->parse_html_file("$page_url")
        
        sind hier die Gänsefüßchen shell-Gewohnheit?
        Last edited: 2010-04-16 11:27:51 +0200 (CEST)
- +2 replies
- pq
  
  2010-04-12 00:02
  User since
  2003-08-04
  12209 Artikel
  Admin1
  ich würde dir ein modul vorschlagen. als ersten ansatz:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8
  
  use strict; use warnings; use Data::Dumper; use XML::RSS; my $rss = XML::RSS->new; $rss->parsefile("/tmp/rss.xml"); my $items = $rss->{items}; print Dumper $items;
  
  dann kannst du schön einfach über @$items iterieren und dir das gewünschte rausholen.
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
  - topeg
    
    2010-04-12 00:14
    User since
    2006-07-10
    2611 Artikel
    BenutzerIn
    
    Ja es gibt auch Module um RSS-Feeds zu lesen.
    
    Also meines nochmal mit "XML::RSS":
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
    
    #!/usr/bin/perl use strict; use warnings; use LWP::Simple qw(get); use XML::RSS; #use Data::Dumper; my $xml_data=get("http://www.dlib.org/rss/dlib.rss"); my $rss = XML::RSS->new; $rss->parse($xml_data); #print Dumper($xml_ref); #Liste mit den gesuchten Einträgen my @items=(); for my $item (@{$rss->{item}}) { my %values=(); $values{title}=$item->{title}; $values{link}=$item->{link}; $values{desc}=''; # Nicht immer ist "description" hesetzt, # darum ist es nötig Erst abzufragen ob das Elemement vorhanden ist # und dann den gewünschten Wert holen $values{desc}=$1 if($item->{description} and $item->{description}=~m/^(.+?)\s+by/); # Referenz auf "%values" an das Array anhängen; push(@items,\%values); } for my $item (@items) { print "Title = ".$item->{title}."\n"; print "Link = ".$item->{link}."\n"; print "Beschreibung = ".$item->{desc}."\n"; print '#'x80,"\n"; }

View all threads created 2010-04-11 23:27.