Schrift
[thread]10046[/thread]

Unicode (Seite 2)

Leser: 23


<< |< 1 2 3 >| >> 26 Einträge, 3 Seiten
kristian
 2007-08-13 13:04
#98033 #98033
User since
2005-04-14
684 Artikel
BenutzerIn
[Homepage] [default_avatar]
Hallo

ptk+2007-08-13 08:11:05--
MS macht keine komischen Dinge. Windows-1252 aka cp1252 ist ein ganz normaler Zeichensatz, wie ISO-8859-1 auch. Blöd ist nur, dass viele Programme meinen, sie benutzen iso-8859-1, aber es ist in Wirklichkeit Windows-1252 (insbesondere Mailprogramme).

Hmmm und wer hat diese Programme hergestellt bzw. auf welchem OS laufen sie?
Selbst wenn es nicht Windows ist, ist MS doch die Ursache.

ptk+2007-08-13 08:11:05--
Wozu gibt's eigentlich die Routine? CPAN:Encode kann doch alles umkodieren...

Ob 1252 derzeit korrekt umgesetzt wird weiß ich nicht, ok, nehmen wir es mal an.
Die Ausgabe die ich dann hätte wäre UTF-8, die Anwendung aus der der Code stammt arbeitet intern mit ISO-8859-1 die Ausgabe (WWW) erfolgt wahlweise in ISO oder UTF-8.
Das geilste ist aber daß die Geschichte auch mit Perl 5.003 laufen muß daher geht es manchmal nur auf diese etwas eigene Art.

Gast+2007-08-13 10:14:46--
Und es benutzt sicherlich nicht jeder Windows...


Das stimmt wohl, sagen wir also: Die Masse benutzt Windows.
Der kleine Rest der bleibt passt sich jedoch zunehmend an bzw. berücksichtigt das ISO-8859-1-Plazebo von MS sprich Windows-1252.
Früher waren die Schriftsätze ja mal gleich, mit dem Euro-Zeichen ging es los...

Gruß
Kristian
sid burn
 2007-08-13 13:44
#98037 #98037
User since
2006-03-29
1520 Artikel
BenutzerIn

user image
Quote
Hmmm und wer hat diese Programme hergestellt bzw. auf welchem OS laufen sie?
Selbst wenn es nicht Windows ist, ist MS doch die Ursache.

Welche Programme? Ich dachte es ging um einen Zeichensatz?
Und MS soll eine Ursache für was sein? Das sie einen Zeichensatz entwickelt haben?

Quote
Ob 1252 derzeit korrekt umgesetzt wird weiß ich nicht, ok, nehmen wir es mal an.

Korrekt umgesetzt? Was soll daran nicht korrekt sein? Ein Zeichensatz ist nur eine Zuordnung von Zahl => Zeichen.

Quote
Der kleine Rest der bleibt passt sich jedoch zunehmend an bzw. berücksichtigt das ISO-8859-1-Plazebo von MS sprich Windows-1252. Früher waren die Schriftsätze ja mal gleich, mit dem Euro-Zeichen ging es los...

Ja zu ASCII zeiten waren sie gleich. Aber schon mit ISO-8859 ist das nicht mehr der Fall. Es gibt etliche ISO-8859 zeichensätze wo die zeichen von 128-255 andere sind. Angepasst für unterschiedliche Sprachen. Mit dem € Zeichen wurde nur der iso-8859-1 nochmals angepasst.
Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
GwenDragon
 2007-08-13 14:40
#98043 #98043
User since
2005-01-17
14542 Artikel
Admin1
[Homepage]
user image
Gast+2007-08-13 10:14:46--

Anonsten nutzen viele Webbrowser Windows-1252 auch wenn explizit iso-8859-1 gefordert wird. Wodurch man dann auch hier ein &#8364; Zeichen sehen kann.

Nein. Kommt darauf an, was als Fallback eingestellt ist.
Es ist nur so, dass manche Browser bei Zeichen, die nicht im Zeichensatz drin sind, das UTF-8-Pendant senden.


Zudem sind die windows-xyz Charsets ganz normale Kodierungen. Es gab schon immer betriebssystemabhängige Charsets.
Beispiele DEC Multinational, HP Roman8, Next Chatset, RFC 1345 und anderes.
Das ist also keine WIndows-Frickelei.
die Drachin, Gwendolyn


Unterschiedliche Perl-Versionen auf Windows (fast wie perlbrew) • Meine Perl-Artikel

sid burn
 2007-08-13 14:52
#98044 #98044
User since
2006-03-29
1520 Artikel
BenutzerIn

user image
Quote
Nein. Kommt darauf an, was als Fallback eingestellt ist.
Es ist nur so, dass manche Browser bei Zeichen, die nicht im Zeichensatz drin sind, das UTF-8-Pendant senden.

Diese Info hatte ich hierher:
http://www.linux-magazin.de/heft_abo/ausgaben/2007...
Quote
Übrigens verwenden die meisten gegenwärtig Dienst tuenden Webbrowser nicht den ISO-8859-1-Standard zur Dekodierung, selbst wenn es der Webserver verlangt. Stattdessen arbeiten sie nach dem Windows-1252-Standard, der noch einige zusätzliche Zeichen und wie ISO-8859-15 das Eurozeichen definiert.


Ähm, ansonsten wenn du auf iso-8859-1 etc. arbeitest dann kennt er keine Definition von Zeichen. Es kommen bytes an. Wie diese Bytes dargestellt werden hängt davon ab welchen zeichensatz du nutzt.

Wenn das Byte mit der dezimalen darstellung "164" ankommt, und es ist iso-8859-15 als zeichensatz eingestellt dann zeigt er ein Euro Zeichen an. Stellst du iso-8859-1 ein, siehst du ein anderes zeichen. Der Webbrowser hat keine Ahnung davon was das für ein zeichen sein soll. Und er kann auch nicht Wissen ob nun damit ein € zeichen oder ein anderes zeichen aus dem Arabischen, Hybräischen oder sonstwas Zeichensatz gemeint war.


Mit UTF-8 ist es etwas anders. Wenn eine Zeichenkodierung wofür er im aktuellen Schriftsatz kein Zeichen dafür hat, dann holt er sich das zeichen meist aus einer anderen Schriftart auf dem System. Wenn das auch nicht vorhanden ist, dann zeigt der browser meist eckicge Blöcke an, und wenn man genau hinschaut steht dort die Unicode Nummer für das zeichen drin.
Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
kristian
 2007-08-13 15:01
#98045 #98045
User since
2005-04-14
684 Artikel
BenutzerIn
[Homepage] [default_avatar]
Hallo

Um alle Klarheiten zu beseitigen...
Früher galt Windows-1252 == ISO-8859-1
Heute gilt Windows-1252 != ISO-8859-1

Diese Änderung "Früher <=> Heute" wurde wohl eindeutig von MS herbeigeführt.
Daran ist nichts Schlimmes, schlimm ist aber das diese Änderung von MS selbst ignoriert wird. Auf einer Webseite die ISO-8859-1 kodiert ist und die eine Eingabemaske hat ist es mit MS-Software problemlos möglich die Zeichen, die den Unterschied ausmachen einzugeben, spätestens wenn man sich der Sonderzeichen-Funktion bedient.
Somit muß man heutzutage immer damit rechnen, daß da wo ISO-8859-1 draufsteht Windows-1252 drinn ist.

Heute setzt Encode.pm Windows-1252 korrekt um ich habe es gerade mit Perl 5.85 getestet, dort funktioniert auch HTML::Entities richtig.
Bei älteren Perl-Versionen war dies definitiv nicht so.

Gruß
Kristian
kristian
 2007-08-13 15:23
#98050 #98050
User since
2005-04-14
684 Artikel
BenutzerIn
[Homepage] [default_avatar]
Hallo

sid burn+2007-08-13 11:44:47--
Ja zu ASCII zeiten waren sie gleich. Aber schon mit ISO-8859 ist das nicht mehr der Fall. Es gibt etliche ISO-8859 zeichensätze wo die zeichen von 128-255 andere sind. Angepasst für unterschiedliche Sprachen. Mit dem € Zeichen wurde nur der iso-8859-1 nochmals angepasst.


Woher kommt diese Info?
Ich hätte gesagt das sich die ISO... im Bereich von 160 - 255 unterscheiden und das die Bereiche von 128 - 160 reserviert sprich nicht genutzt sind.
Für mich gibt es in ISO-8859-1 auch keinen Euro.

Gruß
Kristian
sid burn
 2007-08-13 15:44
#98052 #98052
User since
2006-03-29
1520 Artikel
BenutzerIn

user image
kristian+2007-08-13 13:23:00--
Hallo

sid burn+2007-08-13 11:44:47--
Ja zu ASCII zeiten waren sie gleich. Aber schon mit ISO-8859 ist das nicht mehr der Fall. Es gibt etliche ISO-8859 zeichensätze wo die zeichen von 128-255 andere sind. Angepasst für unterschiedliche Sprachen. Mit dem € Zeichen wurde nur der iso-8859-1 nochmals angepasst.


Woher kommt diese Info?
Ich hätte gesagt das sich die ISO... im Bereich von 160 - 255 unterscheiden und das die Bereiche von 128 - 160 reserviert sprich nicht genutzt sind.

ja stimmt, hab den reservierten Bereich vergessen. Aber was macht es jetzt für einen Unterschied das es auch lange vor dem € Zeichen schon unterschiedliche iso-8859 Standards gab, und die sich bei den 160-255 unterscheiden?

Quote
Für mich gibt es in ISO-8859-1 auch keinen Euro.

Gibts auch offiziel nicht, hat doch auch keiner behauptet?

Ich frage mich eher woher du diese Infos hast?
Quote
Früher galt Windows-1252 == ISO-8859-1
Heute gilt Windows-1252 != ISO-8859-1

Wenn früher cp1252 identisch zu iso-8859-1 war häte man ja keinen neuen zeichensatz erfinden brauchen. Ich kenne es nur so das cp1252 noch zusätzliche Zeichen wie € im reservierten bereich aufgenommen hat.
Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
kristian
 2007-08-13 16:19
#98057 #98057
User since
2005-04-14
684 Artikel
BenutzerIn
[Homepage] [default_avatar]
Hallo

sid burn+2007-08-13 13:44:39--
Quote
Für mich gibt es in ISO-8859-1 auch keinen Euro.

Gibts auch offiziel nicht, hat doch auch keiner behauptet?


Sorry, da habe ich:
sid burn+2007-08-13 11:44:47--
Mit dem € Zeichen wurde nur der iso-8859-1 nochmals angepasst.

wohl falsch verstanden.

sid burn+2007-08-13 13:44:39--
Quote
Früher galt Windows-1252 == ISO-8859-1
Heute gilt Windows-1252 != ISO-8859-1

Wenn früher cp1252 identisch zu iso-8859-1 war häte man ja keinen neuen zeichensatz erfinden brauchen. Ich kenne es nur so das cp1252 noch zusätzliche Zeichen wie € im reservierten bereich aufgenommen hat.


MS hat bestehende Standards nie übernommen, es wurde immer ein Plazebo geschaffen.
Diese Plazebos haben sich weitestgehend am Orginal orientiert wenngleich auch in fast allen Fällen in mindestems einen Punkt was anderes gemacht wurde.
Ich habe das immer so interpretiert, das die eigene Produktlinie gestärkt werden soll.
Nimmst du einmal MS-Soft mußt du es immer, da die sonst nicht ordentlich zusammenspielen. Im Falle 1252 <=> ISO-8859-1 war es halt der Euro wenn auch nicht von Anfang an. 1252 gab es schon bevor man an den Euro dachte.

Was wirklich unverständlich (komisch) ist, ist die Tatsache, das der Schriftsatz weiter aufgebohrt wurde. Wenn die Zukunft Unicode heißt und vor der Tür steht macht es für mich keinen Sinn den alten Zeichensatz mit Zeichen zu erweitern, die eigentlich aus dem Unicode-Bereich stammen.

Gruß
Kristian
pq
 2009-10-12 16:59
#126912 #126912
User since
2003-08-04
12208 Artikel
Admin1
[Homepage]
user image
test:
Կրնամ ապակի ուտել և ինծի անհանգիստ չըներ։
Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
lesen: Wiki:Wie frage ich & perlintro Wiki:brian's Leitfaden für jedes Perl-Problem
pq
 2009-10-12 19:53
#126913 #126913
User since
2003-08-04
12208 Artikel
Admin1
[Homepage]
user image
nochmal
Կրնամ ապակի ուտել և ինծի անհանգիստ չըներ։
Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
lesen: Wiki:Wie frage ich & perlintro Wiki:brian's Leitfaden für jedes Perl-Problem
<< |< 1 2 3 >| >> 26 Einträge, 3 Seiten



View all threads created 2007-08-12 20:38.