Thread Zeichen ersetzen: UTF - ISO-8859-2/windows-1250? (10 answers)
Opened by Gast at 2008-01-15 18:45

ptk
 2008-01-16 21:25
#104800 #104800
User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]
Gast+2008-01-16 13:28:13--
Danke für die Antworten. Sorry, dass es bei mir so lang gedauert hat, ich musste erst mal checken, was ich alles geschnallt habe ;)

Also, da es sich um tschechische Zeichen handelt, z.B. Ř, kann es sich nur um Latin2 handeln, d.h. windows 1250 oder Iso-8859-2? Soweit ich das verstanden habe, gibt es nicht mehr?
Theoretisch gibt es weitere, irgendwelche alten codepages, evtl. mac-encodings usw. win-1250 und iso-8859-2 sind weitgehend kompatibel. Wenn du nur diese beiden hast und sonst nur noch utf-8, dann kannst du auch CPAN:Encode::Guess verwenden.
Quote
Deshalb hilft mir das script noch nicht so viel, weil ich es adaptieren müsste und nicht ganz verstehe.

Ich müsste die entsprechenden unicode codes (@expected_codepoints) finden
Das wären die Zeichen, die du erwartest. Also a-z, A-Z, und dann noch die tschechischen Zeichen, also 0x011B (e mit caron) und all die anderen.
Quote
und dann den text ($octets_to_analyze) ändern?
Das würde bei dir typisch aus einer Datei kommen, denke ich. Also müsstest du da sowas wie $octets_to_analyze = do { open my $fh, $dateiname or die; binmode $fh; <$fh> }; machen.
Quote
Ab dann muss ich zugeben, versteh ich sowieso nicht mehr was das script macht.

Ich glaube mit piconv könnte ich zurecht kommen, kann man das auch in einem script verwenden?
Klar, aber in einem Perl-Skript würde ich lieber Encode::from_to() verwenden. piconv ist gut für den Gebrauch in der Kommandozeile.
Quote
Ich habe perl64 installiert, das ist glaube ich für vista.

Annett


View full thread Zeichen ersetzen: UTF - ISO-8859-2/windows-1250?