utf 8: lesen und schreiben von utf8-html-seiten (Seite 2) (Allgemeines zu Perl)

[thread]6911[/thread]

utf 8: lesen und schreiben von utf8-html-seiten (Seite 2)

Leser: 1

newbie001

2005-04-20 13:13

User since
2005-04-19
8 Artikel
BenutzerIn
[default_avatar]

ja und durch open($R,"<:utf8",$fn) sage ich auch dass die datei in utf-8 kodiert ist.

Crian

2005-04-20 13:19

User since
2003-08-04
5881 Artikel
ModeratorIn

Und weiß das auch das Tool, mit dem Du die Datei dann betrachtest? (Den Lister, der beim Total Commander dabei ist, kann man z.B. auf utf8 umschalten, das muss man dann beim Betrachten aber auch tun.)\n\n

s--Pevna-;s.([a-z]).chr((ord($1)-84)%26+97).gee; s^([A-Z])^chr((ord($1)-52)%26+65)^gee;print;

use strict; use warnings; Link zu meiner Perlseite

newbie001

2005-04-20 14:10

User since
2005-04-19
8 Artikel
BenutzerIn
[default_avatar]

ein normales Lesen und Schreiben (ohne Benutzung des Modus :utf8) funktioniert. problematisch ist es dass es immer noch html ist, also tags und skripts sind immer noch vorhanden, dazu kommt dass einige Zeichen wie das Apostroph immer noch als &â kodiert ist. Ich glaube hier versteckt sich das Problem.

GwenDragon

2005-04-20 14:27

User since
2005-01-17
14943 Artikel
Admin1

[quote=newbie001,20.04.2005, 12:10]problematisch ist es dass es immer noch html ist, also tags und skripts sind immer noch vorhanden, dazu kommt dass einige Zeichen wie das Apostroph immer noch als &â kodiert ist.[/quote]
Nun ja, du muss noch die HTML-tags lÃ¶schen. ;)
Das geht mit CPAN:

HTML::Parser.
Beispiel:

Code: (dl )

#!/usr/bin/perl -w

# Extract all plain text from an HTML file

use strict;
use HTML::Parser 3.00 ();

my %inside;

sub tag
{
 Â  my($tag, $num) = @_;
 Â  $inside{$tag} += $num;
 Â  print " "; Â # not for all tags
}

sub text
{
 Â  Â return if $inside{script} || $inside{style};
 Â  Â print $_[0];
}

HTML::Parser->new(api_version => 3,
Â Â Â Â Â Â Â Â  Â handlers Â  Â => [start => [\&tag, "tagname, '+1'"],
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â 
Â  Â end Â  => [\&tag, "tagname, '-1'"],
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â 
Â  Â text Â => [\&text, "dtext"],
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â 
Â  ],
Â Â Â Â Â Â Â Â  Â marked_sections => 1,
Â Â Â Â )->parse_file(shift) || die "Can't open file: $!\n";;

PS: Es wÃ¤re ja nÃ¼tzlich, wenn lÃ¤ngere Skripte hier hoch geladen werden kÃ¶nnten.\n\n

die Drachin Gwen

Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten

renee

2005-04-20 14:53

User since
2003-08-04
14371 Artikel
ModeratorIn

Wenn es wirklich nur darum geht, die Tags zu löschen, geht es noch einfacher:

Code: (dl )

#!/usr/bin/perl -w

# Extract all plain text from an HTML file

use strict;
use HTML::Parser 3.00 ();

my $html = qq~<html><body>dies ist <b> ein test</b>.<br /><center>Test</center></body></html>~;

sub text
{
   print shift;
}

HTML::Parser->new(api_version => 3, handlers    => [ text  => [\&text, "dtext"], ])->parse($html);

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/

newbie001

2005-04-20 15:09

User since
2005-04-19
8 Artikel
BenutzerIn
[default_avatar]

na ja die Tags zu lÃ¶chen ist kein Problem, am einfachsten ist:
$html =~ s/<.*>//g;

das Problem ist die so was wie &â in utf8-Bytes zu konvertieren.

renee

2005-04-20 15:17

User since
2003-08-04
14371 Artikel
ModeratorIn

Ohje, so solltest Du besser keine Tags löschen, weil Du sonst zuviel löscht... Bei sowas ist es besser auf bewährte Parser umzusteigen...

GwenDragon

2005-04-20 15:19

User since
2005-01-17
14943 Artikel
Admin1

[quote=renee,20.04.2005, 12:53]Wenn es wirklich nur darum geht, die Tags zu löschen, geht es noch einfacher:

Code: (dl )

#!/usr/bin/perl -w

# Extract all plain text from an HTML file

use strict;
use HTML::Parser 3.00 ();

my $html = qq~<html><body>dies ist <b> ein test</b>.<br /><center>Test</center></body></html>~;

sub text
{
   print shift;
}

HTML::Parser->new(api_version => 3, handlers    => [ text  => [\&text, "dtext"], ])->parse($html);

[/quote]
Dein Beispiel habe ich gerade getestet! ;)
Definitiv nein, so geht es nur teilweise.
Wenn du CSS-Styles und Skripte im HTML eingebunden hast, bleiben die Inhalte der Skripte und der Styles im Text.

die Drachin Gwen

Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten

newbie001

2005-04-20 16:31

User since
2005-04-19
8 Artikel
BenutzerIn
[default_avatar]

hey, ich habe es geschaft.
man sollte die Tags mit den regulÃ¤ren ausdrÃ¼cken beseitigen. AnschlieÃend benutzt man das Modul HTML::Entities um sachen wie &â in unicode zu transformieren:D

2005-04-20 17:02

User since
2003-08-04
12209 Artikel
Admin1

[quote=newbie001,20.04.2005, 14:31]hey, ich habe es geschaft.
man sollte die Tags mit den regulÃ¤ren ausdrÃ¼cken beseitigen. AnschlieÃend benutzt man das Modul HTML::Entities um sachen wie &â in unicode zu transformieren:D[/quote]
also, dein regulÃ¤rer ausdruck s/<.*>//g macht aus meinem html
<html><head><title>Titel</title></head><body>blubber</body></html>
einen leeren string:

Code: (dl )

$ perl -wle'
$html = "<html><head><title>Titel</title></head><body>blubber</body></html>";
$html =~ s/<.*>//g;
print "($html)"'
()

Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
lesen: Wiki:

Wie frage ich & perlintro Wiki:

brian's Leitfaden für jedes Perl-Problem

View all threads created 2005-04-19 21:03.