Unicode::Collate -> sehr langsam? (gelöst) - #178920 (Fragen zu Perl-Modulen)

bianca

2014-12-27 18:42

User since
2009-09-13
7016 Artikel
BenutzerIn

user image

Hallo!
Auf der Suche nach einer Lösung für die richtige Sortierung mit Umlauten unter Nutzung von ANSI (latin1/latin15) Zeichencode stieß ich auf Hash mit Umlauten sortieren und freute mich. Endlich sind die Umlaute korrekt sortiert. Vorhin habe ich aber festgestellt, dass diese Lösung leider viel zu langsam ist.

Zum Nachvollziehen:

Code (perl): (dl )

#!/usr/bin/perl
use strict;
use warnings;
use Encode qw(decode);
use Unicode::Collate;
use String::Random;

my $zeilen = 10000;
my $spalten = 5;
my $methode = 2;

#######################################
my %data;
for (my $z = 0; $z < $zeilen; $z ++) {
    my @felder;
    for (my $s = 0; $s < $spalten; $s ++) {
        my $d = String::Random::random_string( '10101022',[ split //, uc 'aei' ],[ split //, uc 'bdfghklmnprstwxz' ],[ split //, '23456789' ]);
        push @felder,$d;
#       print "    $d";
    }
    push @{$data{spalten}},[@felder];
#   print "\n";
}
print "Daten fertig erzeugt\n";
#######################################
print "\n\nSortiert:\n";
if ($methode == 1) {
    my $start = time();
    my $uniccol = Unicode::Collate->new();
    foreach my $harefz (
        sort {
            my $return = 0;
            my $z = -1;
            while (!$return && $z < scalar @{$data{spalten}} - 1) {
                $z ++;
                $return = $uniccol->cmp($a->[$z],$b->[$z]);
            }
            $return;
        }
        @{$data{spalten}}
    ) {
        for (my $s = 0; $s < scalar @{$harefz}; $s ++) {
#           print '    '.$harefz->[$s];
        }
#       print "\n";
    }
    print "\nLaufzeit: ".(time()-$start);
}
else {
    my $start = time();
    foreach my $harefz (
        sort {
            my $return = 0;
            my $z = -1;
            while (!$return && $z < scalar @{$data{spalten}} - 1) {
                $z ++;
                $return = lc $a->[$z] cmp lc $b->[$z];
            }
            $return;
        }
        @{$data{spalten}}
    ) {
        for (my $s = 0; $s < scalar @{$harefz}; $s ++) {
#           print '    '.$harefz->[$s];
        }
#       print "\n";
    }
    print "\nLaufzeit: ".(time()-$start);
}

Das mit den Spalten ist deshalb drin, weil das mir auch so läuft. Denn ich habe häufig die Situation, dass mehrere Spalten selbe Inhalte haben, daher soll er von links nach rechts alphabetisch durchsortieren.

Methode mit CPAN:

Unicode::Collate läuft bei diesen Mengen auf meinem Rechner 14 Sekunden und mit lc weniger als eine volle Sekunde. Wobei CPAN:

Unicode::Collate natürlich korrekt sortiert und lc nicht.
Kann ich eine korrekte Sortierung auch schneller erreichen? Kann man was optimieren?
Muss ich vielleicht an der Behandlung der Spalten etwas ändern, um schneller zu werden?

Der obere Code dient übrigens nur der Geschwindigkeitsmessung, nicht der Darstellung der korrekten Sortierung von Umlauten!
Das Thema Umlaute kann man hiermit testen (ACHTUNG, ANSI, kein UTF8!)

Code (perl): (dl )

1
2
3

my $uniccol = Unicode::Collate->new();
my @s = sort { $uniccol->cmp($a,$b) } ('Vertrag','Übel','Ärger','Öl','ßig','ärgerlich');
print join(' + ',@s);

10 print "Hallo"
20 goto 10