Thread Zeichensätze UTF-8 -> Latin-1 konvertieren (21 answers)
Opened by Glasperlenspieler at 2011-01-04 09:53

clms
 2011-01-04 11:11
#144012 #144012
User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]
2011-01-04T08:53:51 Glasperlenspieler
Ich musss – zur Weiterverarbeitung mit einem älteren Programm – immer wieder mal zehntausende Textdateien aus UTF-8 nach Win Latin-1 (iso-8859-1) konvertieren. Dazu habe ich bisher einfach iconv verwendet, das aber den Dienst verweigert, wenn einzelne Zeichen nicht im Zielzeichensatz enthalten sind.

Gibt es denn eine Möglichkeit, irgendwie die Zeichen zu identifizieren, die im Zielzeichensatz nicht enthalten sind?

Ich verwende für einen ähnlichen Fall ein Perl-Modul, bei dem man als Option angeben kann, dass die nicht unterstützten Unicode-Zeichen als HTML-Entities ausgegeben werden. Bei Bedarf und Gelegenheit kann ich den Code raussuchen. Allerdings muss dann natürlich auch & in die entsprechende HTML-Entity verwandelt werden.

Wenn Du aber einfach nur wissen willst, ob ein kritisches Zeichen in Deinem Text vorkommt, kannst Du das mit m/[^\040-\177 (hier die weiteren unterstützten Zeichen rein)]/ relativ einfach testen.

View full thread Zeichensätze UTF-8 -> Latin-1 konvertieren