Thread Surrogate Pairs in UTF-8 auflösen (28 answers)
Opened by barney at 2025-08-14 14:22

rosti
 2025-08-14 15:23
#197197 #197197
User since
2011-03-19
3687 Artikel
BenutzerIn
[Homepage]
user image
Edit: muss meine Antwort überarbeiten

Also Folgendes: Die Bytes ergeben das GRINNING FACE mit dem Codepoint U+1F600. Beachte jedoch daß das Unicode-Imperium kanonisch aufgebaut ist.

So entspricht das GRNNING FACE mit dem Codepoint U+1F600 der Normalform C

siehe da: http://rolfrost.de/normalize.html?choice=CHR&in=%F...


Und in NFC lauten die Oktetten F0 9F 98 80

Was Du in der Mail bekommen hast, entspricht also nicht der Normalform C (NFC) in der Unicode-Verwaltung.

Sorge also stets dafür, daß Unicode-Zeichen (Bytesequenzen) der Normalform C entsprechen.

Wenn Du jedoch nicht weiß was da an Bytewürsten reinkommt, wirds schwierig bis unmöglich.
Idee: Schicke solche Mails zurück mit dem entsprechenden Status (Zustellungsvermerk).

Bounce Codes
https://empaction.com/de/bounce-codes.html


mfg

PS: Auf jeden Fall sollte jeder Part einer Multipart-MIME Mail einen Content-Type ausweisen und wenn das Text ist, sollte da auch der Parameter Charset zu finden sein. Und das sollte ein MIME::Parser auch rausfinden.
Last edited: 2025-08-14 19:06:15 +0200 (CEST)
http://blog.rolfrost.de/

The art of steam.

View full thread Surrogate Pairs in UTF-8 auflösen