Nur tatsächliche Texte aus HTML parsen - #28995 (Webframeworks, Sonstige Fragen zur Webprogrammierung mit Perl)

Nordlicht

2007-05-09 20:04

User since
2005-10-16
182 Artikel
BenutzerIn
[default_avatar]

Hi Leute,

Ich habe hier ein Programm, mit dem ich die Texte auf Webseiten analysieren möchte. Dazu verwende ich HTML::TreeBuilder, was auch ganz gut funktioniert, solange man bestimmte Tags oder Attribute sucht.

Jetzt brauche ich aber einen speziellen Filter, der allen tatsächlichen "Text" (nicht den Text in Links, Buttons, Menüs, etc, sondern reinen Text) herausfiltert. Dabei soll es egal sein, ob er groß, klein, fett, kursiv, eingerückt, als Überschrift oder sonstwie eingebettet ist.

Wenn ich das mit TreeBuilder mache, müsste ich nacheinander jeden Tag auf Kids und jedes Kid auf Text untersuchen. Und dann stellt euch mal solch einen HTML-Code vor oder ähnliches vor:

Code: (dl )

<blockquote>
<font attribute="...">
Irgend ein eingerückter,
<i>kursiver und 
<b>fetter</b>
</i>
Text
</font>
</blockquote>

ich müsste außerdem eine Liste aller Tags verwalten, die potentiell Text enthalten könnten. Nein danke, ich brauch was besseres.

Gruß, Aaron.