Thread utf 8: lesen und schreiben von utf8-html-seiten (25 answers)
Opened by Gast at 2005-04-19 21:03

Gast Gast
 2005-04-19 21:03
#53963 #53963
hallo zusammen,

ich habe versucht den Kode einer französischen HTML-Seite, die in utf-8 kodiert ist, durch perl zu lesen, nur den Text zu extrahieren, um diesen dann in einer Text-Datei zu speichern.

Das problem ist dass im Ergebnis einige Buchstaben durch komischen Zeichen ersetzt sind. Komischerweise werden diese Buchstaben nicht immer ersetzt. D.h. manschmal sind richtig und manschmal sind die ersetzt.

als Beispiel hier ist der original Text aus dem Browser:
Du temps du président Sukarno,l&’Indonésie affichait sans équivoque son mépris pour les contraintes du développement économique et les relations qu&’il implique avec les pays occidentaux.

das extrahierte Text sieht so aus:
Du temps du président Sukarno, l&’Indonésie affichait sans équivoque son mépris pour les contraintes du développement économique et les relations qu&’il implique avec les pays occidentaux.

Bemerkung &’ = Apostroph

View full thread utf 8: lesen und schreiben von utf8-html-seiten