Thread Surrogate Pairs in UTF-8 auflösen (28 answers)
Opened by barney at 2025-08-14 14:22

barney
 2025-08-15 12:51
#197204 #197204
User since
2008-08-31
223 Artikel
BenutzerIn
[Homepage] [default_avatar]
Deinen Ansatz kann ich nachvollziehen, bin aber anderer Meinung. Mein Ansatz ist dass es Sache der Datenbank ist wie sie Text intern ablegen. Bei Eingabe soll die DB bei UTF-8 Feldern abchecken dass eine valide UTF-8 Bytesequenz ankommt. Bei Ausgabe dass eine valide UTF-8 Bytesequenz wieder rauskommt.

Dass MariaDB die Surrogate Code Points, also U+D800—U+DFFF akzeptiert ist schon hart an der Grenze. PostgreSQL machte es da korrekter, indem es die invaliden Codepoints nicht akzeptiert.

View full thread Surrogate Pairs in UTF-8 auflösen