Thread Nur tatsächliche Texte aus HTML parsen
(21 answers)
Opened by Nordlicht at 2007-05-09 20:04
Danke für alle bisherigen Vorschläge, ich hab mir noch nicht alles angeschaut. Das hier nur nochmal zum Verständnis:
Beispiel: Wenn ihr in Wikipedia nach Perl sucht, bekommt ihr diese Seite: http://de.wikipedia.org/wiki/Perl Ich möchte von Dieser Seite den Text über Perl (egal, wie er formatiert ist), eventuell den Text der Links (nicht die Linkadresse) und sonst nichts. Keine Tags dazwischen, keine Scripte,kein CSS, Formulare, etc. Nur den Text am laufenden Meter. Und ich weiß vorher nicht, wie der HTML-Code aussehen wird, ich muss auf alles gefasst sein. Mit HTML::Parser geht das ja auch. Ich müsste nur irgendwie den Array mit dem gefilterten Text zurückgeben können. Ich überlege inzwischen, ob ich das Problem auf andere Weise umgehen kann... Sozusagen "um den heißen Brei herum" programmieren :) Ich sag bescheid, wenn es mir gelungen ist. |