Surrogate Pairs in UTF-8 auflösen (Allgemeines zu Perl)

[thread]21688[/thread]

Surrogate Pairs in UTF-8 auflösen

Tags: perl5 unicode Ähnliche Threads

Leser: 6

Articles: hide open all | hide show old branches

+29 replies
barney

2025-08-14 14:22

User since
2008-08-31
236 Artikel
BenutzerIn

Hallo,

ich habe wieder einen interessanten Fall bei dem Verarbeiten von Mails. Das ist ähnlich wie in Interessanter Effekt in HTML::Entities::decode_entities() .

In einer eingehenden Mail gibt es einen MIME-Part der mit UTF-8 kodiert ist. Darin enthalten sind die sechs Bytes ED A0 BD ED B8 80. Nach UTF-8 Regeln dekodiert ergeben sich daraus die zwei Code Points U+D83D und U+DE00. Dies sind aber ungültige Codepoints. In UTF-16 werden diese benutzt um Codepoints zu benennen die nicht in zwei Bytes passen. Nach UTF-16 Regeln kommt man dann auf
[code]
uni -u -8 1F600
- rosti
  
  2025-08-14 15:23
  
  User since
  2011-03-19
  3813 Artikel
  BenutzerIn
  
  Edit: muss meine Antwort überarbeiten
  
  Also Folgendes: Die Bytes ergeben das GRINNING FACE mit dem Codepoint U+1F600. Beachte jedoch daß das Unicode-Imperium kanonisch aufgebaut ist.
  
  So entspricht das GRNNING FACE mit dem Codepoint U+1F600 der Normalform C
  
  siehe da: http://rolfrost.de/normalize.html?choice=CHR&in=%F...
  
  Und in NFC lauten die Oktetten F0 9F 98 80
  
  Was Du in der Mail bekommen hast, entspricht also nicht der Normalform C (NFC) in der Unicode-Verwaltung.
  
  Sorge also stets dafür, daß Unicode-Zeichen (Bytesequenzen) der Normalform C entsprechen.
  
  Wenn Du jedoch nicht weiß was da an Bytewürsten reinkommt, wirds schwierig bis unmöglich.
  Idee: Schicke solche Mails zurück mit dem entsprechenden Status (Zustellungsvermerk).
  
  Bounce Codes
  https://empaction.com/de/bounce-codes.html
  
  mfg
  
  PS: Auf jeden Fall sollte jeder Part einer Multipart-MIME Mail einen Content-Type ausweisen und wenn das Text ist, sollte da auch der Parameter Charset zu finden sein. Und das sollte ein MIME::Parser auch rausfinden.
  Last edited: 2025-08-14 19:06:15 +0200 (CEST)
  https://www.rolfrost.de/
  
  Forum zu Fragen unserer Zeit
- GwenDragon
  
  2025-08-14 17:06
  
  User since
  2005-01-17
  14946 Artikel
  Admin1
  
  Wahrscheinlich ein utf8-Theater, sowas hatte ich mal mit HTML::Parser.
  Ich habe bei der Hitze keinen Dunst, ob das bei dir ähnlich ist, und ob das hilft:
  $string = Encode::decode_utf8($string);
  Last edited: 2025-08-14 17:30:02 +0200 (CEST)
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- +21 replies
- haj
  
  2025-08-14 19:40
  
  User since
  2015-01-07
  601 Artikel
  BenutzerIn
  
  Das sieht mir nach dem WTF-8-Encoding aus, wobei WTF nicht das übliche bedeutet, sondern "Wobbly Transformation Format". Microsoft ist wieder mal nicht ganz unbeteiligt.
  
  Die Theorie: https://simonsapin.github.io/wtf-8/
  Auf CPAN: UTF8::R2 soll das wohl können, aber ich bin mal zu faul zum testen :)
  - rosti
    
    2025-08-15 06:46
    User since
    2011-03-19
    3813 Artikel
    BenutzerIn
    
    Interessanterweise kommt JavaScript mit diesen Surrogaten klar:
    
    http://rolfrost.de/encode.html
    
    ED A0 BD ED B8 80 als Binary eingeben, das erzeugt die beiden WTF Codepoints D83D DE00 und auch das Zeichen GRINNING FACE
    
    Also in JS sieht das so aus:
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8
    
    out = [0xD83D, 0xDE00]; // die beiden 16-Bit Code-Points für das GRINNING FACE var chars = ''; for(i = 0; i < out.length; i++){ console.log(i, out[i]) chars += String.fromCodePoint( out[i] ); } console.log(chars);
    
    Der Browser stellt das GRINNING FACE dar, weil er offensichtlich die Kodierung kennt. Leider verrät die der Browser nicht ;)
    
    .
    Last edited: 2025-08-15 13:01:13 +0200 (CEST)
    https://www.rolfrost.de/
    
    Forum zu Fragen unserer Zeit
  - +3 replies
  - rosti
    
    2025-08-15 10:10
    User since
    2011-03-19
    3813 Artikel
    BenutzerIn
    
    Ok wir üben das mal:
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14
    
    use Encode; my $char = pack "U*", 0xD83D, 0xDE00; # diese beiden Codepoints # und die zum Zeichen gehörige Bytesequenz ED A0 BD ED B8 80 printf "%X %X %X %X %X %X\n", unpack "C*", encode_utf8($char); # und jetzt umgekehrt, wir haben eine Bytesequenz und wollen die # WTF Codepoints my $bin = pack "C*", 0xED, 0xA0, 0xBD, 0xED, 0xB8, 0x80; my $zeichen = decode_utf8($bin); # intern kodiert my @codepoints = unpack "U*", $zeichen; foreach my $cp( @codepoints ){ printf "%X ", $cp; }
    
    Das gibt aus:
    
    Code: (dl )
    
    1 2
    
    ED A0 BD ED B8 80 D83D DE00
    
    Also, Perl kommt damit auch klar. Weil ja im Grunde genommen UTF-8 darunter liegt. Aber daß man zwei Codepoints (damit meine ich nicht die Bytes) braucht um ein einziges Zeichen zu repräsentieren, ist wirklich WTF. Weil die Bytesequenz dann 6 Bytes umfasst anstelle 4 Bytes.
    
    Was das Speichern in Datenbanken betrifft: Ich empfehle da, die Bytesequenzen zu speichern, genauso wie in Dateien. Und natürlich in einem dedizierten Feld die Kodierung festzuhalten. Damit man das wiederherstellen kann. Und diese Empfehlung beruht auf Erfahrung.
    
    mfg
    Last edited: 2025-08-15 10:16:31 +0200 (CEST)
    https://www.rolfrost.de/
    
    Forum zu Fragen unserer Zeit
    - +2 replies
    - barney
      
      2025-08-15 12:51
      
      User since
      2008-08-31
      236 Artikel
      BenutzerIn
      
      Deinen Ansatz kann ich nachvollziehen, bin aber anderer Meinung. Mein Ansatz ist dass es Sache der Datenbank ist wie sie Text intern ablegen. Bei Eingabe soll die DB bei UTF-8 Feldern abchecken dass eine valide UTF-8 Bytesequenz ankommt. Bei Ausgabe dass eine valide UTF-8 Bytesequenz wieder rauskommt.
      
      Dass MariaDB die Surrogate Code Points, also U+D800—U+DFFF akzeptiert ist schon hart an der Grenze. PostgreSQL machte es da korrekter, indem es die invaliden Codepoints nicht akzeptiert.
      - rosti
        
        2025-08-15 12:54
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        Du kriegst aber kein UTF-8. Also hast Du mehr als nur eine Kodierung und da wäre es angebacht, mal über einen gemeinsamen Nenner nachzudenken ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
  - +16 replies
  - barney
    
    2025-08-15 12:42
    
    User since
    2008-08-31
    236 Artikel
    BenutzerIn
    
    Wenn ich https://simonsapin.github.io/wtf-8/ richtig verstanden habe dann ist das encoding nicht WTF-8. Bei WTF-8 würde das grinning face ja als die vier UTF-16 Bytes kodiert werden.
    
    Das Encoding ist anscheinend CESU-8, https://en.wikipedia.org/wiki/CESU-8. In diesem Encoding werden die Codepoints außerhalb des BMP durch 6 Bytes kodiert.Seltsamerweise habe ich für CESU-8 kein Encode Modul auf CPAN gefunden. Der Algorithmus wäre wie in https://stackoverflow.com/questions/34151138/conve... .
    - +11 replies
    - rosti
      
      2025-08-15 12:49
      
      User since
      2011-03-19
      3813 Artikel
      BenutzerIn
      
      Sagt Dir MIME::Parser nicht welches Encoding da vorliegt?
      
      Also Content-Type=; Charset=
      https://www.rolfrost.de/
      
      Forum zu Fragen unserer Zeit
      - +10 replies
      - barney
        
        2025-08-15 12:57
        
        User since
        2008-08-31
        236 Artikel
        BenutzerIn
        
        MIME-Parser sagt dass das Encoding UTF-8 ist. Das ist so in den MIME-Header so deklariert und Perl akzeptiert das CESU-8 ja auch klaglos.
        
        Es ist ja auch so dass die Mail multipart/alternative mit einem text/html und einen text/plain MIME Part ist. Im text/html Part ist dass
        
        +9 replies
        
        rosti
        
        2025-08-15 13:08
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        [quote]Im text/html Part ist dass
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +8 replies
        
        barney
        
        2025-08-15 13:23
        
        User since
        2008-08-31
        236 Artikel
        BenutzerIn
        
        Das ist alles nicht die Frage. Der text/html Part ist als UTF-8 deklariert und enthält valides UTF-8. Der text/plain Part ist auch als UTF-8 deklariert enthält aber invalides UTF-8.
        
        +7 replies
        
        rosti
        
        2025-08-15 13:28
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        Doch genau das ist die Frage: Das Content-Transfer-Encoding.
        
        https://www.w3.org/Protocols/rfc1341/5_Content-Tra...
        
        Wenn Du das Problem lösen willst, guck.
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +6 replies
        
        barney
        
        2025-08-15 13:45
        
        User since
        2008-08-31
        236 Artikel
        BenutzerIn
        
        Das Content-Transfer-Encoding ist quoted-printable und der Transfer Content wurde korrekt dekodiert. Das ist nicht das Problem.
        
        +5 replies
        
        rosti
        
        2025-08-15 13:52
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        2025-08-15T11:45:36 barney
        Das Content-Transfer-Encoding ist quoted-printable und der Transfer Content wurde korrekt dekodiert. Das ist nicht das Problem.
        
        Genau da müssen wir jetzt gucken. Zeige bitte mal, wie die Fratze in quoted-printable kodiert ist.
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +4 replies
        
        barney
        
        2025-08-15 14:09
        
        User since
        2008-08-31
        236 Artikel
        BenutzerIn
        
        Das Problem ist von meiner Seite verstanden. Da müssen wir jetzt nicht kucken. Aber wenn du meinst:
        
        Die Header des MIME-Parts:
        
        Quote
        --=__PartF3FA0D46.1__=
        Content-Type: text/plain; charset=UTF-8
        Content-Transfer-Encoding: quoted-printable
        
        Der fragliche Smiley:
        
        Quote
        Audimax. =ED=A0=BD=ED=B8=80Wir ha
        
        Ein Umlaut:
        
        Quote
        ggf. m=C3=B6glich ist
        
        +3 replies
        
        rosti
        
        2025-08-15 14:29
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        Ok, da haben wir ja alles. D.h.: Die Kodierung passt nicht zur Deklaration.
        
        Aber das wusstest Du ja schon. Um die Sache abzusichern, FB_CROAK einschalten:
        
        Code (perl): (dl )
        
        1 2
        
        my $char = decode('UTF-8', $octets, Encode::FB_CROAK); # utf8 "\xD83D" does not map to Unicode at C:/Perl64/lib/Encode.pm line 200.
        
        Nicht weiter damit rummachen. Mail zurückschicken mit dem entsprechenden Bounce-Code.
        
        .
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +2 replies
        
        barney
        
        2025-08-15 15:12
        
        User since
        2008-08-31
        236 Artikel
        BenutzerIn
        
        Danke fürs testen!
        
        rosti
        
        2025-08-15 15:40
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        Keine Ursache, mich interessiert das doch auch ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
    - +4 replies
    - rosti
      
      2025-08-15 12:55
      
      User since
      2011-03-19
      3813 Artikel
      BenutzerIn
      
      Quote
      Bei WTF-8 würde das grinning face ja als die vier UTF-16 Bytes kodiert werden.
      
      Nein. Sondern als eine Bytesequenz mit 6 Bytes. Und genau die hast Du ja bekommen.
      https://www.rolfrost.de/
      
      Forum zu Fragen unserer Zeit
      - +3 replies
      - barney
        
        2025-08-15 13:06
        
        User since
        2008-08-31
        236 Artikel
        BenutzerIn
        
        Da habe ich https://simonsapin.github.io/wtf-8/#cesu-8 anders gelesen. Mein Verständniss ist:
        * WTF-8 supplementary character: 4 Bytes
        * CESU-8 supplementary character: 2*3 Bytes = 6 Bytes
        
        +2 replies
        
        rosti
        
        2025-08-15 13:21
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        Über die Qualität dieses Artikel lässt sich streiten ;)
        
        Also, mit Javascript sieht das so aus:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8
        
        out = [0xD83D, 0xDE00]; var chars = ''; for(i = 0; i < out.length; i++){ chars += String.fromCodePoint( out[i] ); let b = new Blob([chars]); console.log(i, out[i], chars.length, b.size) } console.log(chars);
        
        console:
        
        Code: (dl )
        
        1 2
        
        0 55357 1 3 1 56832 2 4
        
        Aber ich denke, diese 4 Bytes sind UTF-8
        Last edited: 2025-08-15 13:24:11 +0200 (CEST)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        rosti
        
        2025-08-16 08:01
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        In Fakt entsteht über JavaScript Binary->Codepoints->Binary eine bereinigte UTF-8-Kodierung und ein lesbarer Text.
        
        Ohne daß man JavaScript sagen muß, welche Kodierung in der Binary verwendet wurde.
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
- +5 replies
- rosti
  
  2025-08-17 10:50
  User since
  2011-03-19
  3813 Artikel
  BenutzerIn
  Der Algorithmus ist auch in Perl umsetzbar. Du bekommst mit
  
  Code (perl): (dl )
  
  1 2 3
  
  # ED A0 BD ED B8 80 my $bin = pack "C*", 0xED, 0xA0, 0xBD, 0xED, 0xB8, 0x80; my @cps = unpack "U*", decode_utf8 $bin; # D83D DE00
  
  Die High- und Low-Surrogate aus der Binary. Die erkennst Du daran, daß sie in einem Range von D800-DBFF (High) und DC00-DFFF (Low) liegen. Dieser Range ist in UNICODE dafür reserviert.
  
  Weiter gehts:
  Vom High-Surrogate 0xD800 abziehen und vom Low-Surrogate 0xDC00 abziehen. Also jeweils die untere Grenze der Ranges. Dann wird $H mit 0x400 multipliziert, $L addiert und nochmal 0x10000 dazu addiert. So kommst Du auf 1F600, den Codepoint im UNICODE für das GRINNING FACE (Fratze).
  
  Code (perl): (dl )
  
  1 2 3
  
  my $H = 0xD83D - 0xD800; # High Surrogate my $L = 0xDE00 - 0xDC00; # Low Surrogate printf "%X", $H * 0x400 + $L + 0x10000; # 1F600
  
  Nun, obenstehend bekommen wir in @cps genau 2 dieser Surrogate-Codepoints. Bei längeren Texten sind das natürlich mehr als nur 2. Alles in Allem wäre @cps also CP für CP durchzugehen um zu gucken ob sich darin diese reservieren Surrogate-Codepoints befinden. Sobald einer gefunden wird der in D800-DBFF liegt, schnappen wir uns alle Beide und wenden den Algorithmus (siehe oben) an, also tausch High und Low-Surrogate gegen diesen einen CP aus.
  
  Schließlich wird mit pack "U*", @korrigierte_codepoint_liste; eine Binary erzeugt, mit Zeichen die korrekt UTF-8 kodiert sind.
  
  Alles zusammen nach dem Kaffe ;)
  https://www.rolfrost.de/
  
  Forum zu Fragen unserer Zeit
  - rosti
    
    2025-08-17 11:22
    User since
    2011-03-19
    3813 Artikel
    BenutzerIn
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
    
    use Encode; # Bytes Rohdaten my $fratze = pack "C*", 0xED, 0xA0, 0xBD, 0xED, 0xB8, 0x80; my $text = "Früher haben wir richtig gegrinst. Für wenige €€€ schreiben wir uns heute Mails mit einer Fratze $fratze oder mit mehreren $fratze$fratze$fratze"; # Erzeuge die Liste der Codepoints my @cps = unpack "U*", decode_utf8 $text; my @comp = (); # korrigierte Liste for( my $i = 0; $i < @cps; $i++){ if( $cps[$i] >= 0xD800 && $cps[$i] <= 0xDBFF ){ # Range High Surrogate my $H = $cps[$i] - 0xD800; my $L = $cps[1 + $i] - 0xDC00; my $unicp = $H * 0x400 + $L + 0x10000; push @comp, $unicp; ++$i; } else{ push @comp, $cps[$i]; } } # erzeuge die neue Bin aus der Liste mit den korrigierten Code-Points my $bin = encode_utf8 pack("U*", @comp); # Text UTF-8 kodiert # prüfe die Liste der korrigierten Codepoints $, = "\n"; print map{ sprintf "%X", $_} @comp;
    
    Ausgabe im Browser:
    Früher haben wir richtig gegrinst. Für wenige €€€ schreiben wir uns heute Mails mit einer Fratze
    Last edited: 2025-08-17 11:32:12 +0200 (CEST)
    https://www.rolfrost.de/
    
    Forum zu Fragen unserer Zeit
  - +3 replies
  - rosti
    
    2025-08-17 15:08
    
    User since
    2011-03-19
    3813 Artikel
    BenutzerIn
    
    Der Algorithmus ist auch da zu finden:
    
    https://stackoverflow.com/questions/72553544/how-t...
    
    per RegExp
    https://www.rolfrost.de/
    
    Forum zu Fragen unserer Zeit
    - +2 replies
    - barney
      
      2025-08-17 16:40
      
      User since
      2008-08-31
      236 Artikel
      BenutzerIn
      
      Danke, die Ersetzung kommt eventuell in OTOBO 11.1 rein. Es ist nicht wirklich dringend weil diese Fälle ziemlich selten vorkommen. Siehe https://github.com/RotherOSS/otobo/issues/4595 .
      - rosti
        
        2025-08-17 19:33
        
        User since
        2011-03-19
        3813 Artikel
        BenutzerIn
        
        Schön wenns geht. Und: Es funktioniert nicht nur mit WTF-UTF-8 (wo Surrogate drin sind) sondern auch mit UTF-8 wo keine Surrogate drin sind.
        
        Im Unicode sind Surrogate auch dokumentiert:
        http://rolfrost.de/ucdata.html?cat=Cs
        
        general_category: Cs
        
        und die liegen allesamt zwischen D800 - DFFF, in diesem Bereich gibt es also keine regulären Codepoints
        
        http://rolfrost.de/ucdata.html?cpvon=D800&cpbis=DF...
        
        MSG
        .
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit

View all threads created 2025-08-14 14:22.