User since
2005-01-30
26
Artikel
BenutzerIn
Ich habe ein Programm geschrieben, was mir eine best. Website ausliest, dieses klappt auch wunderbar und ich erhalte als ausgabe den Quelltext einer HTML-Tabelle, doch nun hätte ich gerne nur den Inhalt von dieser und desshalb wollte ich einfach alle Tags mit
s/<.*>//g;
entfernen, doch wenn ich das so mache, habe ich plötzlich garkeine Ausgabe mehr, habe ich irgendwas übersehen?
Danke
MfG Tobias
User since
2003-08-04
14371
Artikel
ModeratorIn
.* ist sehr gierig. Wenn Du es unbedingt mit einer eigenen RegEx machen willst, dann solltest Du
s!<[^>]*?>!!g nehmen.
Aber ich empfehle Dir dringen, Dich mit
HTML::Parser (siehe auch
Wiki-Artikel) auseinanderzusetzen!
User since
2005-01-30
26
Artikel
BenutzerIn
Danke renee für die Mühe,
den HTML-Parser hab ich aber nicht benötigt, klappt auch so alles Prima nur das mit den Umlaute konnte ich nicht regeln. Da diese nicht w3c-konform im Quelltext dargestellt sind.
Hmm ich weiß nicht, ob ich dazu einen extra Thread eröffnen soll, ich hätte noch eine kleine rechtliche Frage dazu.
Ich habe ein Programm geschrieben, dass mir praktisch immer das aktuelle TV-Programm ausgibt, die Daten werden von einer anderen Seite eingelesen, wenn ich das Programm öffentlich zur Verfügung stellen würde, wird ja deren Server belastet und traffic verursacht. Ist das dann überhaupt gestattet?
User since
2003-08-04
7321
Artikel
ModeratorIn
für die Umlaute gibt es ein modul namens HTML::Entities (so heißt es glaube ich)
zu dem anderen: inhalten von anderen seiten von anderen auf eigenen seiten einbinden, ist nicht immer erlaubt.
lieber mal die originale webseite um erlaubnis fragen