Thread Auswertung Dateitype/Format (Bin, Unicode, UTF-8)
(3 answers)
Opened by zieglerch at 2007-04-27 19:45
Unicode kann man nicht erkennen, da man Dateien nicht als "Unicode" speichern kann. Was geht, ist ein Encoding wie utf-8, utf-16, ucs-4 oder iso-8859-1. Wahrscheinlich verwechselst du utf-16 und Unicode.
Du kannst z.B. Encode::Guess verwenden, um z.B. zwischen utf-8 und iso-8859-1/ascii zu unterscheiden. Oder selbst Heuristiken schreiben, z.B. versuchen, eine Datei in einem Encoding einzulesen und statistische Untersuchungen machen. Manchmal gibt es auch BOMs, dann ist das Encoding recht eindeutig. Als binär könnte man eine Datei bezeichnen, die auf kein anderes Encoding passt und Bytes im Bereich unterhalb 32 (außer Newline und so) und zwischen 128 und 159 hat. |