Thread Anfänger: RegEx-Templates / Handler? (8 answers)
Opened by Ionit at 2014-09-05 16:24

clms
 2014-09-05 17:09
#177102 #177102
User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]
Die exakte Aufgabenstellung ist mir noch nicht in allen Einzelheiten klar.
Ich nehme an, es sollt nicht die URL selbst sondern die HTML-Datei, auf die die URL verweist, nach den gewünschten Eigenschaften durchsucht werden.

Sind die gewünschten Informationen überhaupt (lokal) so eindeutig markiert, dass man sie mit einer Regex sinnvoll extrahieren kann? (Beispiel: "<li>Alter: 64></li>" könnte mann mit qr(\<li[^>]*>\s*Alter:\s*(\d+)\s*\</li) bekommen.)
Oder wäre es sinnvoller das HTML zu parsen und dann den HTML-Tree zu durchsuchen? (Weil z.B. "Alter" und "64" in zwei Zellen einer Tabelle stehen, oder die "64" immer im 3. <LI> und die Hausnummer im 7. <li>)

Ich habe keine Ahnung, was Du mit Regex-Templates meinst...

Ich habe vor ca. 15 Jahren mal etwas - vermutlich - ähnliches programmiert:
Eine lange Liste mit URLs von Kinoprogrammen sollte darauf überprüft werden, ob sie noch regelmäßig aktualisiert werden. Da hatte ich dann einen Set von Regex und einen Hash, der mir zu jeder URL die Liste mit Regex lieferte, die überprüft werden sollten.
Dabei wurden viele Regex von verschiedenen URLs genutzt. Teilweise, weil die Kinoprogramme mit dem selben Template erstellt wurden, teilweise, weil es relativ kleine Einheiten (wie das aktuelle Datum oder eine Uhrzeit) waren, die in ganz unterschiedlichen HTML-Seiten auftauchten.

View full thread Anfänger: RegEx-Templates / Handler?