Schrift
[thread]8075[/thread]

Datei kein UTF8 (Seite 2)

Leser: 3


<< |< 1 2 >| >> 14 Einträge, 2 Seiten
ptk
 2006-06-12 10:22
#67233 #67233
User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]
Mit perl kommt das Programm "piconv", mit dem man einfach zwischen Encodings umwandeln kann.
GwenDragon
 2006-06-12 12:50
#67234 #67234
User since
2005-01-17
14848 Artikel
Admin1
[Homepage]
user image
Es ist nur möglich heraus zu finden, ob eine Textdatei UTF ist, nämlich durch den BOM.

Ob eine Datei iso-8859-1, windows-1252 oder gar iso-8859-15 ist kannst du nicht herausfinden.

In Textdateien gibt es keine Dateikennungen wie in anderen Dateien.
Dubu
 2006-06-12 13:11
#67235 #67235
User since
2003-08-04
2145 Artikel
ModeratorIn + EditorIn

user image
Mit perl kommt auch Encode::Guess, und auf CPAN gibt es CPAN:File::LibMagic, das wie file(1) funktioniert. Dann kann das eifrige "Encoding-Raten" losgehen.
Dubu
 2006-06-12 23:22
#67236 #67236
User since
2003-08-04
2145 Artikel
ModeratorIn + EditorIn

user image
[quote=GwenDragon,12.06.2006, 10:50]Es ist nur möglich heraus zu finden, ob eine Textdatei UTF ist, nämlich durch den BOM.
[/quote]
Wobei die "Byte Order Mark" nur bei UTF-16- und UTF-32-Kodierung wichtig ist, bei UTF-8 eigentlich nur von ein paar Windows-Programmen erzeugt wird und bei Skripten und Programmcode tunlichst weggelassen werden sollte, damit sich Interpreter/Compiler daran nicht verschlucken.

Quote
Ob eine Datei iso-8859-1, windows-1252 oder gar iso-8859-15 ist kannst du nicht herausfinden.

Gerade ISO-8859-1 und -15 unterscheiden sich nur in ein paar Zeichen (&¤, &¦, &¨, &´, &˛, &¼, &½, &¾, ¼, ½, ¾ vs. ¤, ¦, ¨, ´, ¸ - mal schauen, wie das hier dargestellt wird).
Wenn die nicht im Text vorkommen, kann man es nicht unterscheiden. Und wenn sie vorkommen, weiß man nicht ohne Zusammenhang, welches gemeint ist.

Quote
In Textdateien gibt es keine Dateikennungen wie in anderen Dateien.

Genau.
Immerhin habe ich den Eindruck, dass sich Unicode gegen die alten ISO-Kodierungen etwas schneller durchsetzt als IPv6 gegen IPv4...\n\n

<!--EDIT|Dubu|1150141043-->
<< |< 1 2 >| >> 14 Einträge, 2 Seiten



View all threads created 2006-06-11 08:41.