Schrift
[thread]4590[/thread]

alternative Lösung zur Site Scraping: FEAR:API: FEAR:API



<< >> 7 Einträge, 1 Seite
Gast Gast
 2006-05-28 14:01
#38810 #38810
Ich würde gerne ein neues entwickelndes Projekt vorstellen
...........................................................

Site-Scraping? Sie brachen nur eine einzige Lösung.

Vermutlich haben Sie mehr oder weniger schon ein paar Skript
geschrieben, um Web-Seite zu interagieren. Um Web-Seite zu fetchen,
manche von Ihnen nutzen LWP::* und manche lieben WWW::Mechanize. Zur Extraktion von Web-Daten bleiben manche von Ihnen lieber bei Vanille Regular Expression, während manche sind Anhäner von Template::Extract.
Außer Fetch-und-Extrakt, wollen Sie manchmal auch gern die Daten
umorganisieren oder um-rendern, in andere Format oder in die
Datenbank. Es beutet, Sie immer wieder mehr Code schreiben müssen!!

Jetzt, Es gibt eine andere Alternative - FEAR::API, ein mächtiges Werkzeug.
trotzdem die eine unheimliche Name("fear" bedeutet Angst in Englisch) hat,

FEAR::API ist eine hoch spezialisiert und sehr domain-spezifische Sprache zur eine Lösung eines spezifischen Problem: besonders für Site Scraping.

FEAR::API verwendet ziemlich viel Operator-Overloading, und
verkapselt Heuristik in viele einfache Methode.
FEAR::API versucht auch die Obekt-Oriented Identität zu verstecken.
Aber bricht FEAR::API leider vielleicht jede Regel von Perl-standard-codierung.
Man denkt FEAR::API eventuell wie Schrott.

aber, zuerst versuchen diese Frage zu antworten.

wie viele Zeile codiern Sie um alle Seite von eine Website rekursiv abzuholen,
alle Title aller Seite in STDOUT zu schreben, und noch alle daten in
File speichern.

100? 50? 25?

vielleicht 6, when mit FEAR::API
ungefähr ähnlich wie

Code: (dl )
1
2
3
4
5
6
use FEAR::API -base;
url("google.com");
while($_){
  print title, $/;
  &$_ >> _self | _save_as_tree("./root")
}


Es funktionert so einfach!
Interessieren Sie FEAR::API jetzt ein bisschen mehr ??

ausführlich Beschreibung steht unter http://search.cpan.org/perldoc?FEAR::API

..............................................
Zusammenfassung:
FEAR::API ist ein sehr sehr schnell Methode zur Site Scraping.


/Modedit: Code-Tags spendiert, URL repariert\n\n

<!--EDIT|GwenDragon|1148830261-->
GwenDragon
 2006-05-28 19:27
#38811 #38811
User since
2005-01-17
14590 Artikel
Admin1
[Homepage]
user image
Die Diskussion zum Sinn des Overloadings Perlmonks:537504

Ich finde die Syntax wege des Overloadings irgendwie unsauber. Ist nur ein Gefühl.\n\n

<!--EDIT|GwenDragon|1148830330-->
die Drachin Gwen
betterworld
 2006-05-28 19:34
#38812 #38812
User since
2003-08-21
2613 Artikel
ModeratorIn

user image
Ich habe mal in den Quelltext geguckt und gesehen, dass globale Variablen wie $| und $Storable::* veraendert werden. Das sah nicht gut aus. Ferner sind großgeschriebene Namen fuer Module doch deprecated, oder?
GwenDragon
 2006-05-28 20:18
#38813 #38813
User since
2005-01-17
14590 Artikel
Admin1
[Homepage]
user image
[quote=betterworld,28.05.2006, 17:34]Ich habe mal in den Quelltext geguckt und gesehen, dass globale Variablen wie $| und $Storable::* veraendert werden.  Das sah nicht gut aus.  [/quote]
Nicht die feine Art. Kann zu netten Fehlern führen, wenn solche Module benutzt werden.

Quote
Ferner sind großgeschriebene Namen fuer Module doch deprecated, oder?
Wieso das?
die Drachin Gwen
pq
 2006-05-28 21:19
#38814 #38814
User since
2003-08-04
12208 Artikel
Admin1
[Homepage]
user image
wofür steht FEAR? ist es ein acronym? hat das modul nicht in den WWW-namespace
gepasst?
Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
lesen: Wiki:Wie frage ich & perlintro Wiki:brian's Leitfaden für jedes Perl-Problem
betterworld
 2006-05-28 21:25
#38815 #38815
User since
2003-08-21
2613 Artikel
ModeratorIn

user image
[quote=GwenDragon,28.05.2006, 18:18]
Quote
Ferner sind großgeschriebene Namen fuer Module doch deprecated, oder?
Wieso das?[/quote]
Sie sind fuer interne Namen reserviert, die womoeglich in der Zukunft vergeben werden koennen (so wie 'CORE' oder 'SUPER'). Ebenso wie kleingeschriebene Namen (wie 'subs' oder 'vars').

(Das steht bestimmt irgendwo in perlmod o. Ä., aber ich will das gerade nicht suchen.)\n\n

<!--EDIT|betterworld|1148854870-->
betterworld
 2006-05-28 21:41
#38816 #38816
User since
2003-08-21
2613 Artikel
ModeratorIn

user image
[quote=pq,28.05.2006, 19:19]wofür steht FEAR? ist es ein acronym? hat das modul nicht in den WWW-namespace
gepasst?[/quote]
Code: (dl )
1
2
3
######################################################################
# FEAR is for Fetch, Extract, Aggregate, and Reorganize #
######################################################################

(aus http://search.cpan.org/src/XERN/FEAR-API-0.487.1/lib/FEAR/API.pm)
<< >> 7 Einträge, 1 Seite



View all threads created 2006-05-28 14:01.