Thread Analyse von > 1TB Daten (3 answers)
Opened by roli at 2015-12-11 10:32

Raubtier
 2015-12-11 10:53
#183217 #183217
User since
2012-05-04
1054 Artikel
BenutzerIn

user image
Zeilenweise lesen statt alles auf einmal in den RAM tun?

Du kannst ja mal ein "head -n 1000" auf die Daten machen um zu sehen, was du so an Informationen bekommst. Vielleicht kannst du das ganze schon gleich sinnvoll zeilenweise parsen.

Ich erzeuge dann gerne direkt .root-Dateien zur weiteren Analyse in ROOT (https://root.cern.ch/), aber sehr wahrscheinlich ist für deinen Anwendungsfall ein anderes Tool besser geeignet.

Wenn es logs sind und du alle Informationen brauchst, kannst du dir auch mal ELK anschauen - vielleicht gibt es da sogar schon einen fertigen Parser für deine Daten. Hängt ja auch alles davon ab, was genau du aus den Daten wissen möchtest bzw. was genau drin steht.

Ggf. reicht es auch aus, zufällige 0.1% (oder was für ein Anteil auch immer) der Daten zu extrahieren und das ganze dann irgendwie in ein Statistiktool wie R zu laden.

View full thread Analyse von > 1TB Daten