Schrift
[thread]8401[/thread]

Datenaufbereitung/Datenanalyse: Bitte um Tipps

Leser: 1


<< >> 3 Einträge, 1 Seite
Gast Gast
 2006-10-07 23:19
#70641 #70641
Hallo,

ich will Daten aufbereiten und auswerten, die als Datensätze in Text- oder Exceldateien vorliegen.

Für die Aufbereitung würde ich mir eine möglichst schnörkellose Syntax wünschen, so dass das Skript auch als Dokumentation für Kollegen dienen kann, die sonst nichts mit Perl zu tun haben. Ich denke da an so etwas wie

(Pseudo-Code; @spieleinsatz, @anzklasse1 sind die Ergebnisse einer Reihe von Lottoziehungen):
Code: (dl )
1
2
3
4
$einsatzprospiel = 0.75;
@anzspiel = @spieleinsatz / $einsatzprospiel;
if (@anzklasse1 eq 'Jackpot') {@anzklasse1 = 0;}
@faktorklasse1 = @anzklasse1 * 139_838_160 / @anzspiel;


Auswertungen sind dann vor allem Häufigkeiten, (mehrdimensionale) Kreuztabellen, (gruppierte) Mittelwerte.

* Was für eine Datenstruktur sollte ich in Perl verwenden? Wie man oben sieht, denke ich im Moment in einzelnen Arrays je Datenfeld. Damit wäre ein direktes Benennen der Datenfelder ähnlich obigem Code am ehesten möglich; die Arbeit mit ganzen Datensätzen (Sortieren, Selektieren) wäre dagegen eher umständlich (über Indexarrays, denke ich).

* Welche Module sollte ich mir anschauen?

* Brauche ich zusätzlich ein externes Datenbankprogramm? Ich möchte darauf und besonders auf monströse SQL-Abfragen lieber verzichten.

* Zur Größenordnung: Meist habe ich es mit einigen Tausend Datensätzen zu tun, der dickste Brocken waren mal 170.000 Datensätze. 10 bis 30 Felder, oft mit länglichen Klartextangaben, plus diverse von mir berechnete/kodierte Felder. Bis jetzt bearbeite ich solche Daten größtenteils mit SPSS für Windows.

Danke für alle Tipps und Hinweise,
Redoute
renee
 2006-10-08 00:26
#70642 #70642
User since
2003-08-04
14371 Artikel
ModeratorIn
[Homepage] [default_avatar]
Anstatt einzelner Arrays würde ich Dir eher zu Hashes raten, die du einfacher befüllen kannst. Um verschiedene Statistische Werte zu berechnen, könntest Du Dir mal einzelne Sachen von CPAN:Statistics::Basic anschauen.

Wenn Du eine "Datenbank" haben willst, aber kein externes Programm, dann könntest Du mit CPAN:DBI und CPAN:DBD::CSV arbeiten. Dann hast Du den Vorteil von SQL, brauchst aber kein zusätzliches Programm.
OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/
sid burn
 2006-10-08 01:03
#70643 #70643
User since
2006-03-29
1520 Artikel
BenutzerIn

user image
Oder benutze SQLite.
Damit wird deine Datenbank in einer einzigen Datei gespeichert, und du musst auch kein Server Prozess starten.

Wenn du den DBD für SQLite auf deinem System installiert hast, kannst du sofort SQLite benutzen.

Für tausenden von Einträgen sollte das wohl Performanter sein.
Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
<< >> 3 Einträge, 1 Seite



View all threads created 2006-10-07 23:19.