Thread Surrogate Pairs in UTF-8 auflösen
(28 answers)
Opened by barney at 2025-08-14 14:22
Hallo,
ich habe wieder einen interessanten Fall bei dem Verarbeiten von Mails. Das ist ähnlich wie in Interessanter Effekt in HTML::Entities::decode_entities() . In einer eingehenden Mail gibt es einen MIME-Part der mit UTF-8 kodiert ist. Darin enthalten sind die sechs Bytes ED A0 BD ED B8 80. Nach UTF-8 Regeln dekodiert ergeben sich daraus die zwei Code Points U+D83D und U+DE00. Dies sind aber ungültige Codepoints. In UTF-16 werden diese benutzt um Codepoints zu benennen die nicht in zwei Bytes passen. Nach UTF-16 Regeln kommt man dann auf [code] uni -u -8 1F600 |