Thread Surrogate Pairs in UTF-8 auflösen (28 answers)
Opened by barney at 2025-08-14 14:22

barney
 2025-08-15 12:42
#197202 #197202
User since
2008-08-31
223 Artikel
BenutzerIn
[Homepage] [default_avatar]
Wenn ich https://simonsapin.github.io/wtf-8/ richtig verstanden habe dann ist das encoding nicht WTF-8. Bei WTF-8 würde das grinning face ja als die vier UTF-16 Bytes kodiert werden.

Das Encoding ist anscheinend CESU-8, https://en.wikipedia.org/wiki/CESU-8. In diesem Encoding werden die Codepoints außerhalb des BMP durch 6 Bytes kodiert.Seltsamerweise habe ich für CESU-8 kein Encode Modul auf CPAN gefunden. Der Algorithmus wäre wie in https://stackoverflow.com/questions/34151138/conve... .

View full thread Surrogate Pairs in UTF-8 auflösen