unicode combined characters nach iso aber wie ? (Allgemeines zu Perl)

[thread]17189[/thread]

unicode combined characters nach iso aber wie ?

Tags: perl5 utf-8 combined Ähnliche Threads

Leser: 17

Articles: hide open all | hide show old branches

+6 replies
perlot

2012-02-23 16:13

User since
2012-02-23
2 Artikel
BenutzerIn

Hi, ich bin eigentlich mit Encode bisher gut gefahren, was utf8 -> iso-8859-1 und zurück anbelangt. Nun habe ich in einer XML Datei sogenannte "combined characters", die werden leider nicht erkannt, evtl. weil das erste Byte (von gesamt dreien ) nur \x{55} also kleiner als ist. Also das Ü ist nicht als 2Byte vorhanden sondern als 3Bytes. Also 1 Byte U (Latin capital letter U, \x55 ) + 2 Bytes (combining diaeresis, \xcc \x88).

Wie bekomme ich \x55\xcc\x88 zu einem Ü konvertiert ? Danke für jeden Tipp und jedes Such-Stichwort. LG M.
Last edited: 2012-02-23 16:17:49 +0100 (CET)
- GwenDragon
  
  2012-02-23 16:53
  
  User since
  2005-01-17
  14942 Artikel
  Admin1
  
  ~~Quelle How to reverse a (Unicode) string~~
  War (vielleicht) falsch gedacht, dass Unicode::Normalize helfen könnte.
  //EDIT Obwohl, es macht wohl das was in http://unicode.org/reports/tr15/#Examples beschrieben ist.
  Last edited: 2012-02-23 17:11:42 +0100 (CET)
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- +4 replies
- moritz
  
  2012-02-23 18:48
  User since
  2007-05-11
  923 Artikel
  HausmeisterIn
  Unicode::Normalized hilft tatsächlich. Du brauchst die "composed" Normalform.
  
  Beispiel:
  
  Code: (dl )
  
  1 2 3 4
  
  $ echo -e "\x55\xcc\x88"|utf8-dump U\N{COMBINING DIAERESIS} echo -e "\x55\xcc\x88"| perl -CS -MUnicode::Normalize -pE '$_ = NFC($_)'|utf8-dump \N{LATIN CAPITAL LETTER U WITH DIAERESIS}
  
  Dabei habe ich zum Anzeigen dieses kleine Helferscript benutzt.
  Perl 6 - Perls Zukunft
  - Gast perlot
    
    2012-02-23 20:50
    
    danke für die superschnellen antworten, ich check das und melde mich wieder ;-)
    Last edited: 2012-02-23 20:58:11 +0100 (CET)
  - +2 replies
  - perlot
    
    2012-02-25 21:28
    User since
    2012-02-23
    2 Artikel
    BenutzerIn
    
    Lieber Moritz, vielen Dank, das Skript hat mir sehr geholfen. Im String steckt einmal ein Ü als "combined character" (also U + 2 Byte) und ein Ü als normales Unicodezeichen (2Bytes). Einfaches decodieren als utf8 bei gemischten "normalen" utf8-Unicodes und "combined characters" reicht definitiv nicht (siehe Ausgabe ISO-8859-1). Ich habe jetzt Unicode::Normalize eingebunden benutze NFC() und bekomme was ich wollte.
    
    Frage noch an Moritz, Du benutzt folgenden Code.
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8
    
    ... s{([^\0-\177])}{N_escape($1)}eg; ... sub N_escape { my $n = charnames::viacode(ord($_[0])); return defined($n) ? "\\N{$n}" : sprintf('\x{%x}', ord($_[0])); } ...
    
    Wie schafft es der Ersetzungsstring, dass 3 Bytes zu einem Charname aufgelöst werden können, obwohl N_escape() nur zeichenweise abarbeitet.
    Magie?
    
    LG Mathias
    
    ###########################
    Testskript:
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
    
    #!/usr/bin/perl use strict; use warnings; use charnames (); use Encode qw(encode decode_utf8); use Unicode::Normalize; our $s1 = "\x55\xcc\x88bel \xc3\x9cbel gro\xc3\x9fe"; print STDERR "string: $s1 (" . &my_print($s1) . ")\n\n"; my $s2 = decode_utf8($s1); print STDERR "decode_utf8: $s2 (" . &my_print($s2) . ")\n\n"; my $s2b = encode("iso-8859-1", decode_utf8($s1)); print STDERR "ISO-8859-1: $s2b (" . &my_print($s2b) . ")\n\n"; my $s3 = NFC($s2); print STDERR "NFC: $s3 (" . &my_print($s3) . ")\n\n"; my $s4 = $s3; $s4 =~ s{([^\0-\177])}{N_escape($1)}eg; print STDERR "Unicode names: $s4 (...)\n\n"; exit; sub N_escape { my $n = charnames::viacode(ord($_[0])); return defined($n) ? "\\N{$n}" : sprintf('\x{%x}', ord($_[0])); } sub my_print { my $string = $_[0]; my $newstring = ''; my @chars = split(//, $string ) ; for my $char (@chars) { $newstring .= sprintf('\x{%x}', ord($char)) } return $newstring }
    
    Ausgabe sieht so aus:
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10
    
    string: Übel Übel große (\x{55}\x{cc}\x{88}\x{62}\x{65}\x{6c}\x{20}\x{c3}\x{9c}\x{62}\x{65}\x{6c}\x{20}\x{67}\x{72}\x{6f}\x{c3}\x{9f}\x{65}) Wide character in print at C:\projekte\perl\unicode\uni_test5.pl line 12. decode_utf8: UÌˆbel Ãœbel groÃŸe (\x{55}\x{308}\x{62}\x{65}\x{6c}\x{20}\x{dc}\x{62}\x{65}\x{6c}\x{20}\x{67}\x{72}\x{6f}\x{df}\x{65}) ISO-8859-1: U?bel Übel große (\x{55}\x{3f}\x{62}\x{65}\x{6c}\x{20}\x{dc}\x{62}\x{65}\x{6c}\x{20}\x{67}\x{72}\x{6f}\x{df}\x{65}) NFC: Übel Übel große (\x{dc}\x{62}\x{65}\x{6c}\x{20}\x{dc}\x{62}\x{65}\x{6c}\x{20}\x{67}\x{72}\x{6f}\x{df}\x{65}) Unicode names: \N{LATIN CAPITAL LETTER U WITH DIAERESIS}bel \N{LATIN CAPITAL LETTER U WITH DIAERESIS}bel gro\N{LATIN SMALL LETTER SHARP S}e (...)
    - moritz
      
      2012-02-26 08:09
      
      User since
      2007-05-11
      923 Artikel
      HausmeisterIn
      
      2012-02-25T20:28:12 perlot
      Frage noch an Moritz, Du benutzt folgenden Code.
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8
      
      ... s{([^\0-\177])}{N_escape($1)}eg; ... sub N_escape { my $n = charnames::viacode(ord($_[0])); return defined($n) ? "\\N{$n}" : sprintf('\x{%x}', ord($_[0])); } ...
      
      Wie schafft es der Ersetzungsstring, dass 3 Bytes zu einem Charname aufgelöst werden können, obwohl N_escape() nur zeichenweise abarbeitet.
      Magie?
      
      Die "Magie" ist das decode_utf8, das die drei Bytes in einen einzigen Codepoint umwlandelt. Siehe z.B. http://perlgeek.de/en/article/encodings-and-unicod... für eine ausführlichere Beschreibung.
      Perl 6 - Perls Zukunft

View all threads created 2012-02-23 16:13.