Thread Surrogate Pairs in UTF-8 auflösen
(28 answers)
Opened by barney at 2025-08-14 14:22
Wenn ich https://simonsapin.github.io/wtf-8/ richtig verstanden habe dann ist das encoding nicht WTF-8. Bei WTF-8 würde das grinning face ja als die vier UTF-16 Bytes kodiert werden.
Das Encoding ist anscheinend CESU-8, https://en.wikipedia.org/wiki/CESU-8. In diesem Encoding werden die Codepoints außerhalb des BMP durch 6 Bytes kodiert.Seltsamerweise habe ich für CESU-8 kein Encode Modul auf CPAN gefunden. Der Algorithmus wäre wie in https://stackoverflow.com/questions/34151138/conve... . |