2014-05-02T07:14:38 kezall* Hinweis: leider greifen die Vorschläge nicht. Mit OpenOffice geöffnete *.txt zeigt nach wie vor d.h. unbeirrt alle an.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
open ( LESEN, "<", "$outInf" ) or die "Lesefehler: $outInf: $? \n";
open ( SCHREIBEN, ">>", "$outTxt" ) or die "Schreibfehler: $outTxt: $? \n";
while ( $line = <LESEN> ) {
my $nwline = $line;
$nwline =~ s/ //g;
$nwline =~ s/\.(?! )/. /g;
$nwline =~ s/\,(?! )/, /g;
chomp ( $nwline );
print SCHREIBEN $nwline;
if ( index ( $nwline, $bisZum ) == 0 ) { last; }
}
close ( LESEN );
close ( SCHREIBEN );
unlink $outInf;
2014-05-02T12:22:04 kezall
Code: (dl )1
2open ( LESEN, "<", "$outInf" ) or die "Lesefehler: $outInf: $? \n";
open ( SCHREIBEN, ">>", "$outTxt" ) or die "Schreibfehler: $outTxt: $? \n";
2014-05-02T15:38:32 kezallWie hast du das gemacht?Die Datei habe ich aus *.html in *.txt konvertiert.
QuoteKann nicht sein, denn ist eine gültige HTML-Entität. Da hat dein benutztes Konvertierungsprogramm HTML->Text erheblich gepfuscht.Die ' .. diente mir damals in HTML als Abstandhalter. Nach dem Tranfer sind die eben drin im Text geblieben und halten nach wie vor den Abstand.
QuoteLeuchtet mir ein.Da ich diese Zeichen überflüssig finde, möchte ich sie raus haben.D.h. die Abstände mit Leertaste oder Tabulator selbst bestimmen.
QuoteÄh, wie was?Sie kommen als \x000A, \#0160 unter bless als c2A0, #160 194, o240 302 vor.
QuoteWie hast du das gemacht?
QuoteKann nicht sein, denn ist eine gültige HTML-Entität. Da hat dein benutztes Konvertierungsprogramm HTML->Text erheblich gepfuscht.
QuoteÄh, wie was? Du meinst ,das steht als \x000A und \#0160 8also mehrfache Zechen!) im Text?
2014-05-03T05:10:14 kezallIch blicke nicht mehr durch, welche binären Zeichen ersetzt werden müssen und welche durch Konvertierung entstandenen ASCII-Strings.Die unterschiedliche Code kommt von Schreibprogramm, Search&Replase oder Hex-Editor zustande. Im Text selbst steht nur .. Es war/ist eine einfache, bequeme und schnelle Art es in HTML zu 'Meistern'.