UTF-8 Encode HTML::Parser DBI (Allgemeines zu Perl)

[thread]14136[/thread]

UTF-8 Encode HTML::Parser DBI

Tags: encoding Ähnliche Threads

Leser: 24

Articles: hide open all | hide show old branches

+4 replies

kristian

2009-10-13 22:22

User since
2005-04-14
684 Artikel
BenutzerIn

Hallo

Ich stehe gerade völlig auf dem Schlauch.
Die Situation: Ich lese via LWP Webseiten aus, ermittele das Charset will das Ganze nach UTF wandeln, dann HTML::Parser drüberschicken und das Ergebnis des Parsers in ein MySQL-DB schreiben.
Folgender Code macht mir Schwierigkeiten:

Code (perl): (dl )

    my $content = '';

    if($data->{'content'} && $data->{'charset'}){
        if($data->{'charset'} eq 'utf-8'){
            $data->{'content'} = decode("utf-8",$data->{'content'});       # make perl characters, Encode.pm
            $data->{'content'} = decode_entities($data->{'content'});      # add signs from HTML::Entities
            $content = encode("utf-8",$data->{'content'});                 # make octets for disk-writing, Encode.pm
        }else{
            my $length = from_to($data->{'content'}, find_encoding($data->{'charset'}), "utf-8");
            if($length){
                $data->{'content'} = decode("utf-8",$data->{'content'});        # make perl characters, Encode.pm
                $data->{'content'} = decode_entities($data->{'content'});       # add signs from HTML::Entities     
                $content = encode("utf-8",$data->{'content'});                  # make octets for disk-writing, Encode.pm               
            }else{
                _log_message("Charset $data->{'charset'} not supported", 1);
            }
        }
    }

    if(length($content)){
        $p->parse($content); # HTML::Parser (  can('utf8_mode') && $p->utf8_mode(1) )
    }

Wenn ich es so mache sind die Daten für den Parser problemlos.
Mache ich es so:

Code (perl): (dl )

    my $content = '';

    if($data->{'content'} && $data->{'charset'}){
        if($data->{'charset'} eq 'utf-8'){
            $data->{'content'} = decode("utf-8",$data->{'content'});       # make perl characters, Encode.pm
            $data->{'content'} = decode_entities($data->{'content'});      # add signs from HTML::Entities
            $content = $data->{'content'};
        }else{
            my $length = from_to($data->{'content'}, find_encoding($data->{'charset'}), "utf-8");
            if($length){
                $data->{'content'} = decode("utf-8",$data->{'content'});        # make perl characters, Encode.pm
                $data->{'content'} = decode_entities($data->{'content'});       # add signs from HTML::Entities     
                $content = $data->{'content'};          
            }else{
                _log_message("Charset $data->{'charset'} not supported", 1);
            }
        }
    }

    if(length($content)){
        $p->parse($content); # HTML::Parser (  can('utf8_mode') && $p->utf8_mode(1) )
    }

bekomme ich die nette Meldung:

Quote
Wide character in subroutine entry at ./crawler line 156 (#1)
(W utf8) Perl met a wide character (>255) when it wasn't expecting
one. This warning is by default on for I/O (like print). The easiest
way to quiet this warning is simply to add the :utf8 layer to the
output, e.g. binmode STDOUT, ':utf8'. Another way to turn off the
warning is to add no warnings 'utf8'; but that is often closer to
cheating. In general, you are supposed to explicitly mark the
filehandle with an encoding, see open and perlfunc/binmode.

Uncaught exception from user code:
Wide character in subroutine entry at ./crawler line 156.
at ./crawler line 155

Zeile 155 ist $p->parse, der mag das also nicht.

Soweit so gut. Das wäre ja nicht tragisch aber wenn ich die Daten in die DB schreiben will staune ich.

Sowohl

Code (perl): (dl )

$sql_res = $sth_1->execute($data->{'url'}, $title, $keywords, $description, "@all_words") or die($sth_1->errstr());

als auch:

Code (perl): (dl )

$sql_res = $sth_1->execute(decode("utf-8",$data->{'url'}), decode("utf-8",$title), decode("utf-8",$keywords), decode("utf-8",$description), decode("utf-8","@all_words")) or die($sth_1->errstr());

ergibt in der DB die netten Ã¼, Ã¤ usw.
Einzig wenn ich die Daten im oberen Code, zweiter Eintrag nich encode bleibt das, was versehentlich durch den Parser geht, heile und es stehen die richtigen Umlaute in der DB.

Habe ich da irgendwo nen groben Denkfehler?
Es kann doch nicht sein, daß ich etwas das ich encode nicht zurück decoden kann?

Gruß
Kristian
Last edited: 2009-10-13 22:24:13 +0200 (CEST)

+3 replies
pq

2009-10-13 23:35

User since
2003-08-04
12209 Artikel
Admin1

bei sowas hilft immer Devel::Peek, um zu gucken, was genau für bytes in dem string stehen und ob er das utf8-flag hat.
dann stellt sich noch die frage, was für eine datenbank zu benutzt. bei mysql muss man beim connect noch mysql_enable_utf8 mit angeben, damit das richtige dort landet, bei postgres muss man sowas AFAIK nicht.

edit: ach, da steht's ja, mysql. hast du die utf8-option benutzt? dann solltest du daten mit utf8-flag direkt in die db schreiben können (glaube ich, ich benutz fast nur noch DBIx::Class, da übergibt man jedenfalls utf8-kodierte daten)
Last edited: 2009-10-13 23:39:00 +0200 (CEST)
Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +2 replies
- kristian
  
  2009-10-14 08:56
  User since
  2005-04-14
  684 Artikel
  BenutzerIn
  2009-10-13T21:35:54 pq
  bei sowas hilft immer Devel::Peek, um zu gucken, was genau für bytes in dem string stehen und ob er das utf8-flag hat.
  
  Danke, das bringt mich auf den richtigen Weg.
  Die erste Überraschung war die Rückgabe von LWP:
  FLAGS = (SMG,POK,pPOK,UTF8)
  ...
  MG_TYPE = PERL_MAGIC_utf8(w)
  Uuups....
  
  Beim Nachlesen zu LWP fand ich eben übrigends herraus das ich mir zuviel Mühe mache:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9
  
  if($res->is_success){ $result->{'url'} = $res->request->uri; $result->{'charset'} = _suggest_charset($res); $result->{'content'} = $res->decoded_content(charset => $result->{'charset'}); return $result; }else{ ..... }
  
  reicht eigentlich.
  
  Mein Problem entsteht durch die kaputten Daten in kaputten Seiten.
  Ich werde mich also um Prüfung der Daten kümmern müssen bzw. prüfen müssen ob decode / encode funktionieren, was sie aber nicht tuen können, das die Daten ja kaputt sind.
  
  Ev. ne Idee wie ich kaputte Daten repariere?
  Last edited: 2009-10-14 09:05:23 +0200 (CEST)
  - kristian
    
    2009-10-14 11:36
    User since
    2005-04-14
    684 Artikel
    BenutzerIn
    
    Hallo
    
    Am Ende der Nerven fand sich die Lösung:
    
    Code (perl): (dl )
    
    1 2
    
    $res = $dbh->do("SET NAMES utf8"); $res = $dbh->do("SET CHARSET utf8");
    
    Jetzt steht auch drinn, was ich reinschreibe....
    Url dazu:
    http://dev.mysql.com/doc/refman/5.0/en/charset-app...
    
    Gruß
    Kristian

View all threads created 2009-10-13 22:22.