Sinnvolle Lösung? use bytes; Oder doch nicht. Oder Encode? (gelöst) (Fragen zu Perl-Modulen) - Perl-Community.de

Start · Board · Anwendungen/Programme/Skripte in Perl · Fragen zu Perl-Modulen · HTML::Parser und substr()

2026-06-25 19:31:21
Europe/Berlin
Einloggen (Registrieren)
- Einstellungen
- Statistics
Jemand zu Hause?
0 Benutzer online
12 Gäste

[thread]21458[/thread]

submit to reddit

Sinnvolle Lösung? use bytes; Oder doch nicht. Oder Encode? [gelöst]

[gelöst]

Tags: perl5 HTML Ähnliche Threads

Leser: 7

Articles: hide open all | hide show old branches

Teilbaum:
Sinnvolle Lösung? use bytes; Oder doch nicht. Oder Encode? (37 Artikel) 2023-05-14 16:04

+38 replies
GwenDragon

2023-05-09 18:09
User since
2005-01-17
14943 Artikel
Admin1
Lösung ist wohl:
Code (perl): (dl )

1 2 3 4 5 6

my $data = join "", @replaced_data; $data = Encode::decode("utf-8", $data); $data = substr( $data, 0, $maxlen ); use bytes; return $data . '…';
Sieht so aus als würde das nun ein valider HTML-Stream.
Last edited: 2023-05-12 14:19:09 +0200 (CEST)
die Drachin Gwen

Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- +33 replies
- haj
  
  2023-05-09 18:49
  User since
  2015-01-07
  601 Artikel
  BenutzerIn
  Mir ist noch etwas aufgefallen: Wenn Du dekodierten (also "Characters") Text reinfütterst, dann musst Du Deinen Text-Handler (Zeile 29) entsprechend anpassen:
  
  Code (perl): (dl )
  
  1 2 3 4
  
  # Handlerroutine für Textinhalt registrieren $p->handler( text => sub { my $s = shift; push @replaced_data, $s; }, "text" # <--- Decodierung ist nicht mehr notwendig
  
  Zum Rettungsanker: Davon rate ich ab.
  
  2023-05-09T16:09:02 GwenDragon
  
  Code (perl): (dl )
  
  use bytes;
  
  Die Beschreibung des bytes-Moduls sagt:
  
  Quote
  Use of this module for anything other than debugging purposes is strongly discouraged. If you feel that the functions here within might be useful for your application, this possibly indicates a mismatch between your mental model of Perl Unicode and the current reality. In that case, you may wish to read some of the perl Unicode documentation: perluniintro, perlunitut, perlunifaq and perlunicode.
  - +32 replies
  - rosti
    
    2023-05-10 07:19
    
    User since
    2011-03-19
    3810 Artikel
    BenutzerIn
    
    Es gibt Perlprogrammierer die schalten völlig sinnlos und überflüssigerweise die Kodierung ein und haben nicht eine einzige Zeile in ihrem Code wo die Kodierung gebraucht wird. Und wundern sich dann über internal Server Errors (ein wide character in print führt nämlich dazu) und Zeichensalat in Dateien und Datenbanken.
    Also mein Framework basiert schon auf mehr als 30 Jahren Erfahrungen im Programmieren aber im Grunde genommen habe ich in zahlreichen Unternehmen eher gelernt wie man es nicht machen sollte.
    Im Übrigen arbeitet Perl per Default bytesemantisch. Ein print Dumper \%INC zeigt mir auch daß bytes.pm per Default geladen wird. Was man mit no bytes; jederzeit ausschalten kann.
    
    MFG
    Last edited: 2023-05-10 10:37:54 +0200 (CEST)
    https://www.rolfrost.de/
    
    Forum zu Fragen unserer Zeit
    - +31 replies
    - haj
      
      2023-05-10 15:00
      
      User since
      2015-01-07
      601 Artikel
      BenutzerIn
      
      2023-05-10T05:19:43 rosti
      Ein print Dumper \%INC zeigt mir auch daß bytes.pm per Default geladen wird.
      
      Es ist der Data::Dumper, der bytes lädt. Perl selbst lädt erstmal gar nichts.
      
      Code: (dl )
      
      1 2
      
      $ perl -M5.020 -e 'say for keys %INC' $
      
      Mit dem Data::Dumper sieht es so aus:
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12
      
      $ perl -M5.020 -MData::Dumper -e 'say for keys %INC' warnings/register.pm strict.pm Carp.pm overloading.pm bytes.pm constant.pm Data/Dumper.pm warnings.pm Exporter.pm XSLoader.pm $
      - +30 replies
      - rosti
        
        2023-05-11 09:15
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Stimmt, der Dumper lädt das. Aber vielleicht kannst Du ja mal erklären warum man Pragma bytes nur für Debugging verwenden soll und ansonsten nicht.
        
        MFG
        
        PS:
        Quote
        If you feel that the functions here within might be useful for your application, this possibly indicates a mismatch between your mental model of Perl Unicode and the current reality.
        
        Das klingt ziemlich arrogant!
        Last edited: 2023-05-11 09:23:09 +0200 (CEST)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +11 replies
        
        GwenDragon
        
        2023-05-11 13:44
        
        User since
        2005-01-17
        14943 Artikel
        Admin1
        
        Mir ist auch nicht klar, warum ich nicht use bytes; verwenden sollte.
        Zudem es eben schneller ist als das fette Modul Encode.
        
        Ist das so ein Perl-Geheimnis, das nur Leuten zuteil wird, die sehr oft auf Perl-COnventions/-Workshops waren?
        
        Du hast Recht, Rosti, das ist auch auch ein ziemlich arschiger arroganter Hinweis.
        Mir fällt dazu ein dem Kerl entgegen zu rufen: "WTF! Don't be a dick!"
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        rosti
        
        2023-05-11 14:11
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Danke ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +9 replies
        
        haj
        
        2023-05-11 15:40
        
        User since
        2015-01-07
        601 Artikel
        BenutzerIn
        
        2023-05-11T11:44:37 GwenDragon
        Ist das so ein Perl-Geheimnis, das nur Leuten zuteil wird, die sehr oft auf Perl-COnventions/-Workshops waren?
        
        Du hast Recht, Rosti, das ist auch auch ein ziemlich arschiger arroganter Hinweis.
        Mir fällt dazu ein dem Kerl entgegen zu rufen: "WTF! Don't be a dick!"
        
        Willst Du seine Mail-Adresse haben?
        
        Die Formulierung ist seit Perl 5.12 drin... von einem Perl-Geheimnis kann man da nicht wirklich sprechen.
        
        +8 replies
        
        GwenDragon
        
        2023-05-11 16:38
        
        User since
        2005-01-17
        14943 Artikel
        Admin1
        
        2023-05-11T13:40:47 haj
        Willst Du seine Mail-Adresse haben?
        Nein, das ändert auch nichts. Ist halt ein schlechter Stil, Nutzer so anzumotzen und ihr Denken mental quasi verdreht oder falsch zu nennen. Ich hab auch keinen Bock, mich mit männlichen Perl-Nerds anzulegen.
        Last edited: 2023-05-11 16:55:22 +0200 (CEST)
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        +7 replies
        
        haj
        
        2023-05-11 20:02
        
        User since
        2015-01-07
        601 Artikel
        BenutzerIn
        
        Du musst Dich nicht mit ihm anlegen, Du kannst auch einfach einen Pull Request schreiben, um die Dokumentation zu verbessern. Der Sinn, dass bytes nicht als Ersatz für Encode taugt, muss in jedem Fall erhalten bleiben - denn mit bytes kann man "kaputte" Strings erzeugen, die weder als Characters noch als Bytes brauchbar sind.
        
        +6 replies
        
        rosti
        
        2023-05-12 08:47
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Quote
        mit bytes kann man "kaputte" Strings erzeugen, die weder als Characters noch als Bytes brauchbar sind.
        
        Nein. Deine kaputten Strings entstehen dadurch daß Du vor der Ausgabe die Kodierung nicht ausschaltest.
        
        MFG
        
        PS, nach eingehender Prüfung: Du schaltest die Kodierung 2x aus, Dein Code ohne use bytes; umgeschrieben macht denselben Mist:
        
        Code (perl): (dl )
        
        1 2
        
        my $out = encode "utf-8", "Ein '$ae_3' kostet 1$euro"; print encode "utf-8", $out;
        
        D.h., Du verwendest bytes im falschen Kontext. Richtig wäre, entweder das Pragma bytes setzen oder Encode benutzen. MFG
        Last edited: 2023-05-12 09:29:06 +0200 (CEST)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +5 replies
        
        haj
        
        2023-05-12 14:11
        
        User since
        2015-01-07
        601 Artikel
        BenutzerIn
        
        Das ist schon etwas dreist, meinen Beispielcode so zu verändern, dass er zu Deinen Thesen passt. Ich habe für das Beispiel mit dem Euro-Zeichen ein ä verwendet, das mit chr 0xe4 erzeugt wurde ($ae_1, nicht $ae_3). Das ist mit den üblichen Perl-Methoden nicht von einem ä zu unterscheiden, das als "\N{U+e4}" erstellt wird. Unter use bytes; wird es aber nicht als UTF-8-String, sondern als ein einzelnes Zeichen gedruckt.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11
        
        use 5.020; my $ae_1 = chr 0xe4; my $ae_2 = "\N{U+e4}"; say '$ae_1 ist gleich $ae_2' if ($ae_1 eq $ae_2); { use bytes; print $ae_1; print $ae_2; }
        
        +4 replies
        
        rosti
        
        2023-05-12 14:37
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Quote
        Das ist schon etwas dreist, meinen Beispielcode so zu verändern, dass er zu Deinen Thesen passt.
        
        Jetzt werd mal nicht frech. Ich habe Deinen Code so verändert damit Du verstehst was Du falsch machst. Aber bitte, ich kann es Dir auch so erklären:
        
        Du notierst use bytes; und schaltest damit die Zeichenkodierung aus. Dann benutzt Du encode und schaltest die Kodierung ein zweites Mal aus. Im Ergebnis dessen sind Deine Zeichen kaputt.
        Und ja, denselben Mist kriegt man auch ganz ohne use bytes; hin.
        
        Bitteschön!
        Last edited: 2023-05-12 14:44:12 +0200 (CEST)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +3 replies
        
        haj
        
        2023-05-12 15:28
        
        User since
        2015-01-07
        601 Artikel
        BenutzerIn
        
        Du hättest keineswegs in dem Beispiel $ae_1 durch $ae_3 ersetzen müssen. Denn bei $ae_1 sieht man einen Unterschied zwischen encode und use bytes:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12
        
        use 5.020; use warnings; use Encode; my $ae_1 = chr 0xe4; print encode 'UTF-8', $ae_1; { use bytes; print $ae_1; }
        
        Bei $ae_3 verhalten sich use_bytes und encode gleich, bei $ae_1 tun sie das nicht. $ae_1 ist ein korrektes ä, use bytes funktioniert nur in einer Umgebung, in der solche Strings nicht vorkommen.
        
        rosti
        
        2023-05-12 15:43
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Lieber haj,
        
        das liegt an chr(). Guck mal:
        
        Code (perl): (dl )
        
        1 2
        
        my $c = chr 0xA4; print unpack "C*", $c; # 164
        
        D.h., chr() schnappt sich nur das erste Byte eines utf-8-kodierten 'ä' und das hat die Wertigkeit C2, bzw. 164.
        
        Also auch diese Geschichte hat nichts mit Pragma bytes zu tun. MFG
        
        Oh, Sorry, das war jetzt mein Fehler. Korrektur folgt ;)
        
        Edit: Also das liegt wohl doch an chr(); 2x Encode:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9
        
        use strict; use warnings; use Encode; my $c = chr 0xE4; my $cc = pack "U", 0xA4; print encode 'utf8', encode 'utf8', $c; # kaputt print "\n"; print encode 'utf8', encode 'utf8', $cc; # auch kaputt
        
        Last edited: 2023-05-12 15:52:13 +0200 (CEST)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        rosti
        
        2023-05-12 16:08
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Hast Recht haj,
        
        use bytes funktioniert nicht bei mit chr(0xE4) erzeugten Zeichen. Man muß sich einfach mal richtig damit befassen.
        
        MFG
        
        PS: chr(0xE4) erzeugt ja auch kein utf-8-kodiertes Zeichen sondern ein 'ä' mit genau einem Byte (ISO). Von daher hat ein use bytes; keinen Effekt!
        
        Erst mit chr(CP > 255) entstehen utf-8-kodierte Zeichen und dann funktioniert auch use bytes;
        Last edited: 2023-05-12 16:30:19 +0200 (CEST)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +18 replies
        
        haj
        
        2023-05-11 15:12
        
        User since
        2015-01-07
        601 Artikel
        BenutzerIn
        
        2023-05-11T07:15:03 rosti
        Aber vielleicht kannst Du ja mal erklären warum man Pragma bytes nur für Debugging verwenden soll und ansonsten nicht.
        
        Ich kann's zumindest versuchen.
        
        Ein ä kann in Perl auf diversen Wegen entstehen. Das kann aus einer Datei kommen, aus dem Internet, oder vom Aufrufer an ein Unterprogramm übergeben werden. Hier mal ein paar Beispiele für einfache Zuweisungen:
        
        Code (perl): (dl )
        
        my $ae_1 = chr 0xe4;
        
        Code (perl): (dl )
        
        my $ae_2 = "\N{U+e4}";
        
        Code (perl): (dl )
        
        my $ae_3 = "\N{LATIN SMALL LETTER A WITH DIAERESIS}";
        
        Wenn man die untereinander mit eq vergleicht, dann sind sie gleich. Alle haben eine Länge von 1 und werden mit m/\w/ als "Wort"-Zeichen identifiziert. Außer use bytes und anderen Debugging-Tools (z.B. Devel::Peek) gibt es keine Möglichkeit, sie voneinander zu unterscheiden.
        Unter use bytes gibt aber keine Möglichkeit, die Variablen $ae_1, $ae_2 und $ae_3 korrekt auszugeben.
        Es braucht nicht unbedingt zwei verschiedene ä-Variablen, um den Effekt zu demonstrieren. Sowas wie das unten folgende Euro-Beispiel habe ich mehrmals reparieren müssen und immer war das Wehklagen "Ohne Encode geht's nicht und mit Encode geht's auch nicht!"
        Das Code-Beispiel ist für eine UTF-8-Konsole gedacht, unter Windows (cmd.exe) geht's also mit chcp 65001:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
        
        use 5.020; use Encode; my $ae_1 = chr 0xe4; my $ae_2 = "\N{U+e4}"; my $ae_3 = "\N{LATIN SMALL LETTER A WITH DIAERESIS}"; my $euro = "\N{EURO SIGN}"; { say "Ohne 'use bytes', mit Encode"; say "1 = 2" if $ae_1 eq $ae_2; say "2 = 3" if $ae_2 eq $ae_3; say encode 'UTF-8', " mit encode: ae_1 = $ae_1, ae_2 = $ae_2, ae_3 = $ae_3"; say encode 'UTF-8', " mit encode: Ein '$ae_1' kostet 1$euro"; say "-" x 50; } { use bytes; say "Mit 'use bytes'"; say "1 = 2" if $ae_1 eq $ae_2; say "2 = 3" if $ae_2 eq $ae_3; say "ohne encode: ae_1 = $ae_1, ae_2 = $ae_2, ae_3 = $ae_3"; say encode 'UTF-8', " mit encode: ae_1 = $ae_1, ae_2 = $ae_2, ae_3 = $ae_3"; say "ohne encode: Ein '$ae_1' kostet 1$euro"; say encode 'UTF-8', " mit encode: Ein '$ae_1' kostet 1$euro"; }
        
        +17 replies
        
        rosti
        
        2023-05-11 16:03
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14
        
        use strict; use warnings; # auf diese Art und Weise entstehen # alle Zeichen mit UTF-8-Kodierung # es gilt die Charactersemantic my $ae_1 = chr 0xe4; my $ae_2 = "\N{U+e4}"; my $ae_3 = "\N{LATIN SMALL LETTER A WITH DIAERESIS}"; my $euro = "\N{EURO SIGN}"; print $euro; # Wide character in print, Fehler! use bytes; # schalte um auf bytesemantic print $euro; # Ausgabe OK
        
        Für Zeichen die per pack "U", $codepoint; erzeugt werden gilt ebenfalls die Bytesemantic, diese Zeichen betrachtet Perl intern als utf-8-kodierte Zeichen. Sofern nicht mit use bytes; auf Bytesemantic umgeschaltet wurde.
        
        In Dateien gibt es keine Kodierung. Dateien speichern nur Bytes. Das gilt auch für die Scriptdatei selbst, lenght "ä" liefert per Default also 2. Es sei denn pragma use utf8; wurde gesetzt, dann gilt wieder die charsemantic und length liefert 1. Dieses Verhalten zeigt Perl ab v5.6.1 also seit etwa 2004. Wobei die Unicodeunterstützung in diesen Perlversionen mangelhaft war. Encode kam erst mit v5.8.8 in den Core.
        
        Und noch etwas: Unicode ist keine Kodierung sondern die Verwaltung. Es gibt also keine Unicode-Zeichen. UTf-8 ist ein Serialize-Algorithmus welcher den Zusammenhang zwischen Codepoint und Bytesequenz beschreibt. Dieser Algorithmus steckt in der U-Schablone für die pack()-Funktion und ist natürlich auch in Encode implementiert. Mittlerweile ist dieser Algorithmus auch in JavaScript angekommen, so daß man entweder bytesemantisch oder charsemantisch vorgehen kann (TextDecoder and TextEncoder).
        
        MFG und weiterhin viel Spaß mit Perl ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +16 replies
        
        Linuxer
        
        2023-05-12 14:07
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Das Thema ist nicht einfach mit pauschalen Aussagen beschrieben.
        
        2023-05-11T14:03:44 rosti
        ... Das gilt auch für die Scriptdatei selbst, lenght "ä" liefert per Default also 2.
        
        Das stimmt meiner Meinung so ohne Zusatz nicht.
        Denn bereits mit der Einstellung Deines Editors gibst Du die Kodierung der Skriptdatei vor.
        Somit ist das davon abhängig, was Dein Editor für eine Kodierung eingestellt hat und gemäß welcher Kodierung die Bytesequenz in die Datei geschrieben wird.
        
        Wie ist also Dein Default definiert? Denn der bestimmt, was genau bereits in Deiner Skriptdatei passiert!
        
        Bei einer Datei, die mit "latin1"- oder "latin9"-Kodierung (oder "iso-8859-1" oder "iso-8859-15") gespeichert worden ist, liefert length("ä") auch nur eine 1.
        
        Aber wenn Deine Skriptdatei mit "utf8"-Kodierung geschrieben worden ist, dann liefert length nur dann "2", wenn Du es versäumt hast, dass im Code zu hinterlegen (und Du kein use utf8; im Code verwendest (warum auch immer)). Denn in diesem Fall wird das "ä" gemäß "utf-8" Kodierung geschrieben.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6
        
        #! /usr/bin/env perl use strict; use warnings; use 5.010; say length("ä");
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13
        
        $ file -i /tmp/t.pl ; perl /tmp/t.pl /tmp/t.pl: text/plain; charset=iso-8859-1 1 # Datei rekodiert zu utf-8 $ file -i /tmp/t.pl ; perl /tmp/t.pl /tmp/t.pl: text/plain; charset=utf-8 2 # Datei editiert und ein "use utf8;" eingefügt $ file -i /tmp/t.pl ; perl /tmp/t.pl /tmp/t.pl: text/plain; charset=utf-8 1
        
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +15 replies
        
        rosti
        
        2023-05-12 14:42
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Danke für Deinen Hinweis zur Einstellung des Editors. Beweist es doch einmal mehr daß aus Dateien eben nur Bytes kommen und auch der Editor wissen muss, welcher Kodierung diese Bytes entsprechen sollen. MFG
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +14 replies
        
        Linuxer
        
        2023-05-12 16:59
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Es beweist vor allem, dass auch der Perl-Interpreter erfahren muss, welche Kodierung die Skriptdatei hat!
        Vor allem, wenn man anfängt, z.B. Sonderzeichen in Variablennamen zu verwenden....
        
        Z.B. bei einer utf-8 kodierten Datei ohne das entsprechende Pragma geladen zu haben...
        
        Code: (dl )
        
        1 2 3 4
        
        $ file -i /tmp/t.pl; perl /tmp/t.pl /tmp/t.pl: text/plain; charset=utf-8 Can't use global $^▒▒▒▒▒▒▒ in "my" at /tmp/t.pl line 9, near "my $▒" Unrecognized character \xA4 in column 6 at /tmp/t.pl line 9.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10
        
        #! /usr/bin/env perl use strict; use warnings; use 5.010; say length("ä"); my $ä = "test"; say $ä;
        
        Last edited: 2023-05-12 17:03:07 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +13 replies
        
        rosti
        
        2023-05-12 17:47
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Quote
        Es beweist vor allem, dass auch der Perl-Interpreter erfahren muss, welche Kodierung die Skriptdatei hat!
        
        Nein. Den Perlinterpreter interessiert es nicht im Geringsten welche Kodierung der Editor für die Scriptdatei vorsieht.
        
        Quote
        Vor allem, wenn man anfängt, z.B. Sonderzeichen in Variablennamen zu verwenden....
        
        Was ja auch völliger Blödsinn ist ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +10 replies
        
        Linuxer
        
        2023-05-12 19:39
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Ich schrieb Skriptdatei, nicht Editor.
        
        Und Sonderzeichen war gemeint im Sinne von UTF-8 Zeichen.
        Last edited: 2023-05-12 19:48:16 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +9 replies
        
        rosti
        
        2023-05-13 09:35
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Lieber Linuxer, Dateien kennen gar keine Zeichenkodierung. Und ob man unbedingt UTF-8-kodierte Zeichen in der Symboltabelle haben will ist eine Frage der Sinnfälligkeit. MFG
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +8 replies
        
        Linuxer
        
        2023-05-13 14:57
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Lieber rosti, auch wenn eine Datei ihre eigene Kodierung in der Regel nicht "kennt", wird sie in einer bestimmten Kodierung geschrieben. Und das ist nun mal entscheidend.
        
        Denn diese Kodierung legt fest, wie die Bytes geschrieben werden. Und der Leser (Editor, Skript, Programm) muss dann irgendwie erfahren, welche Kodierung das sein soll. Entweder, indem der Leser stumpf seine Standardeinstellung anwendet oder indem er anhand der Bytes der Datei zu erraten versucht, welche Kodierung das sein könnte.
        Last edited: 2023-05-13 15:12:15 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +7 replies
        
        rosti
        
        2023-05-13 17:01
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Ja sicher doch. Was aber nichts an der Tatsache ändert daß Dateien eben keine Kodierung kennen.
        
        Um aus diesem Thread noch was Gutes zu machen: http://rolfrost.de/bchar.html
        
        MFG
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +4 replies
        
        Linuxer
        
        2023-05-14 00:09
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Ich geb's auf.
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +3 replies
        
        bianca
        
        2023-05-14 08:39
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        Wie kann es sein, dass es hier scheinbar zwei Meinungen gibt, die beide richtig sind? Ist Perl darin wirklich nicht eindeutig?
        Von außen betrachtet - mein Verständnis des Themas hört da auf, dass ich weiß, dass Datenbank, Scripteditor und Browser immer alle gleich konfiguriert sein müssen - finde ich das verunsichernd.
        
        Wo kommt denn etwas her, was diese Regel durchbricht? Bitte erklärt mir das einmal kurz für rookies.
        10 print "Hallo"
        20 goto 10
        
        +2 replies
        
        Linuxer
        
        2023-05-14 10:51
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Variante 1: Zwei Meinungen, beide anscheinend richtig, und doch ist eine falsch.
        Variante 2: Zwei Meinungen, beide richtig, aber betrachten unterschiedliche Dinge oder stehen in unterschiedlichem Kontext, der nicht klar dargestellt ist.
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        rosti
        
        2023-05-14 13:55
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        @bianca, das nächste Zeichen-Problem lässt bestimmt nicht lange auf sich warten ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        +2 replies
        
        rosti
        
        2023-05-14 07:27
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Werden Bytes, also Zeichen ohne Kodierung der Funktion Encode::encode() übergeben entsteht Datenmüll:
        
        Code (perl): (dl )
        
        1 2 3 4 5
        
        use strict; use warnings; use Encode; my $cc = pack "CC", 195, 164; print encode "utf8", $cc; # Müll
        
        Mit use bytes; entsteht kein Müll, das heißt, daß in jedem Fall die richtigen Bytes ausgegeben werden auch wenn dieses Pragma nicht gesetzt wurde:
        
        Code (perl): (dl )
        
        1 2 3 4 5
        
        use strict; use warnings; my $cc = pack "CC", 195, 164; use bytes; # mit oder ohne print $cc; # korrekt
        
        Wegen lesbarem Code und aus anderen Gründen ist also abzwägen zwischen beiden Möglichkeiten. Einen Grund auf das Pragma bytes zugunsten Encode zu verzichten gibt es jedoch nicht.
        
        Artikel ergänzt: http://rolfrost.de/bchar.html
        
        Und die Sonne scheint wieder, schönen Sonntag ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
        
        Linuxer
        
        2023-05-14 11:20
        
        User since
        2006-01-27
        3894 Artikel
        HausmeisterIn
        
        Wenn man Werkzeuge falsch einsetzt, entsteht oft "Müll".
        IMHO ist Encode::encode() hier falsch eingesetzt. Dann ist klar, dass hier scheinbar Datenmüll entsteht.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
        
        use strict; use warnings; use Encode qw( encode decode); use 5.010; # Byte Sequenz my $cc = pack "CC", 195, 164; # übernehme die Bytesequenz als utf8 kodierte Daten # encode() ist hier falsch! Siehe auch: https://metacpan.org/pod/Encode#TERMINOLOGY + https://metacpan.org/pod/Encode#encode + https://metacpan.org/pod/Encode#decode my $uu = decode('UTF-8', $cc); # Schalte Ausgabekanal auf utf8 binmode(*STDOUT, 'utf8'); # Terminal auf utf8 schalten; weil dieser Test auf Windows gemacht wurde, gleich eingebaut system("chcp 65001"); # Gebe das UTF8 Zeichen aus say $uu; # kein Müll
        
        Und zur Verwendung von bytes:
        
        Die Schreiber von bytes werden sich ganz sicher da was bei gedacht haben, dass sie die zuvor diskutierte Warnung dazu geschrieben haben.
        Und sorry, ich würde mehr auf deren Aussage vertrauen als auf Deine Ausführungen.
        Last edited: 2023-05-14 16:04:04 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +2 replies
        
        GwenDragon
        
        2023-05-12 19:42
        
        User since
        2005-01-17
        14943 Artikel
        Admin1
        
        Kein Blödsinn. Perl ist eine Sprache, weißt du doch. Und Perl ist von Herrn Wall, auch Linguistiker, mit erfunden worden. Da wundert es nicht, dass auch Nicht-US-ASCII-Zeichen erlaubt sind.
        Ich verwende es nicht, aber wer weiß.
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        rosti
        
        2023-05-12 20:11
        
        User since
        2011-03-19
        3810 Artikel
        BenutzerIn
        
        Ja klar. Btw., ich kenne DB-Designer die legen Charset utf8 für Schlüsselfelder fest. Kann man sicher machen. Nur darf man sich dann nicht über große Indexdateien wundern ;)
        https://www.rolfrost.de/
        
        Forum zu Fragen unserer Zeit
- +3 replies
- GwenDragon
  
  2023-05-10 10:22
  
  User since
  2005-01-17
  14943 Artikel
  Admin1
  
  In meinem Fall ists es moderner und laut Description von bytes statt
  use bytes;
  da folgendes zu nehmen
  $data = Encode::encode("utf-8", $data);
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
  - +2 replies
  - rosti
    
    2023-05-10 10:25
    
    User since
    2011-03-19
    3810 Artikel
    BenutzerIn
    
    Nun, es gibt mehrere Möglichkeiten die Kodierung auszuschalten. Wenn Encode einmal geladen ist und Du nur einen einzigen String hast, ist es sicher zweckmäßig das auch mit Encode zu tun.
    
    HTML::Parser übrigens offenbart einen fürchterlichen Programmierstil. Eine Übergabe von Referenzen auf Funktionen im globalen Namespace hat mit zweckmäßiger OOP nicht viel zu tun. Das ist Stand Perl 4.
    
    MFG
    Last edited: 2023-05-10 10:33:04 +0200 (CEST)
    https://www.rolfrost.de/
    
    Forum zu Fragen unserer Zeit
    - GwenDragon
      
      2023-05-10 11:16
      
      User since
      2005-01-17
      14943 Artikel
      Admin1
      
      Ich weiß, dass der Parser unmodern gecodet ist.
      Aber ich brauch’ eben einen schnellen Filter der mir aus dem HTML nur den Text rausholt.
      die Drachin Gwen
      
      Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- rosti
  
  2023-05-12 15:26
  
  User since
  2011-03-19
  3810 Artikel
  BenutzerIn
  
  Valide heißt auch, daß alle Zeichen in Normalform c sein sollten ;)
  
  Dies als Ergänzung, MFG
  https://www.rolfrost.de/
  
  Forum zu Fragen unserer Zeit

View all threads created 2023-05-09 13:09.