Surrogate Pairs in UTF-8 auflösen - #197197 (Allgemeines zu Perl)

rosti

2025-08-14 15:23

User since
2011-03-19
3813 Artikel
BenutzerIn

Edit: muss meine Antwort überarbeiten

Also Folgendes: Die Bytes ergeben das GRINNING FACE mit dem Codepoint U+1F600. Beachte jedoch daß das Unicode-Imperium kanonisch aufgebaut ist.

So entspricht das GRNNING FACE mit dem Codepoint U+1F600 der Normalform C

siehe da: http://rolfrost.de/normalize.html?choice=CHR&in=%F...

Und in NFC lauten die Oktetten F0 9F 98 80

Was Du in der Mail bekommen hast, entspricht also nicht der Normalform C (NFC) in der Unicode-Verwaltung.

Sorge also stets dafür, daß Unicode-Zeichen (Bytesequenzen) der Normalform C entsprechen.

Wenn Du jedoch nicht weiß was da an Bytewürsten reinkommt, wirds schwierig bis unmöglich.
Idee: Schicke solche Mails zurück mit dem entsprechenden Status (Zustellungsvermerk).

Bounce Codes
https://empaction.com/de/bounce-codes.html

mfg

PS: Auf jeden Fall sollte jeder Part einer Multipart-MIME Mail einen Content-Type ausweisen und wenn das Text ist, sollte da auch der Parameter Charset zu finden sein. Und das sollte ein MIME::Parser auch rausfinden.
Last edited: 2025-08-14 19:06:15 +0200 (CEST)

https://www.rolfrost.de/

Forum zu Fragen unserer Zeit