Thread Surrogate Pairs in UTF-8 auflösen
(28 answers)
Opened by barney at 2025-08-14 14:22
Deinen Ansatz kann ich nachvollziehen, bin aber anderer Meinung. Mein Ansatz ist dass es Sache der Datenbank ist wie sie Text intern ablegen. Bei Eingabe soll die DB bei UTF-8 Feldern abchecken dass eine valide UTF-8 Bytesequenz ankommt. Bei Ausgabe dass eine valide UTF-8 Bytesequenz wieder rauskommt.
Dass MariaDB die Surrogate Code Points, also U+D800—U+DFFF akzeptiert ist schon hart an der Grenze. PostgreSQL machte es da korrekter, indem es die invaliden Codepoints nicht akzeptiert. |