Thread Surrogate Pairs in UTF-8 auflösen (28 answers)
Opened by barney at 2025-08-14 14:22

barney
 2025-08-14 14:22
#197196 #197196
User since
2008-08-31
223 Artikel
BenutzerIn
[Homepage] [default_avatar]
Hallo,

ich habe wieder einen interessanten Fall bei dem Verarbeiten von Mails. Das ist ähnlich wie in Interessanter Effekt in HTML::Entities::decode_entities() .

In einer eingehenden Mail gibt es einen MIME-Part der mit UTF-8 kodiert ist. Darin enthalten sind die sechs Bytes ED A0 BD ED B8 80. Nach UTF-8 Regeln dekodiert ergeben sich daraus die zwei Code Points U+D83D und U+DE00. Dies sind aber ungültige Codepoints. In UTF-16 werden diese benutzt um Codepoints zu benennen die nicht in zwei Bytes passen. Nach UTF-16 Regeln kommt man dann auf
[code]
uni -u -8 1F600

View full thread Surrogate Pairs in UTF-8 auflösen