Thread ca. 1200 PDF-Dateien auslesen und bestimmte Daten in eine CSV-Datei speichern
(20 answers)
Opened by Thyrius at 2014-07-15 21:55
So, nach einigem hin und her habe ich mit der Ausgabe der Textdatei doch so meine Probleme.
Denn, nachdem das Progi pdftotext.exe die Umwandlung vollzogen hat, sind sämtliche gebrauchten Daten Leerzeichen getrennt. Wären alle Adressen im selben Aufbau, so wäre ich bereits fertig. Da aber teilweise Strassennamen mit mehreren Wörtern auch Leerzeichen getrennt sind, oder Firmennamen ebenfalls mit Leerzeichen geschrieben werden, kann man sich vorstellen, welches Durcheinander das bei über 1200 Datensätzen gibt. I-Punkt setzen dann die Doktoren in den Datensätzen, die teilweise mit mehreren Kürzeln "daherprahlen". Nachdem ich mir das File pdftotext genauer angesehen habe, habe ich herausgefunden, dass mit dem richtigen Parameter die Ausgabe so ausgegeben werden kann, dass die Adresse nicht in einer Zeile steht, sondern wie es sich gehört, untereinander. Beispiel-Ergebnis der Umwandlung ohne extra Parameter (wie im Code benutzt) Quote oder Quote Wünschenswert wäre gewesen: Quote oder Quote Das kann meines Wissens aber nicht funktionieren, wenn pdftotext das nicht hergibt. So, wie gesagt, habe mir das Programm genauer angesehen und einen Schalter gefunden, der mir die Adresse wie folgt ausgibt: Quote Die Daten, die ich brauche, fangen also immer bei Zeile 15 an (Fettgedruckt) Doof, wenn ich ne Zeile mehr habe, wie hier: Quote Die nächste Zeile, die immer, also bei jeder Datei folgt, ist dieser Eintrag: Code: (dl
)
Telefon: 0176123456789 weil diese auch im Briefkopf rechts steht, quasi als Zeile 5. Dieser Eintrag ist also immer gleich! Wie kann ich nun meinem Perl-Scribt sagen, es soll nicht die Zeile 2 lesen, sondern lesen ab Zeile 15 bis eine Zeile anfängt mit "Telefon: 0176123456789" ??? Sorry, wenn ich die Community wieder bemühen muss... :( Ich hänge hier seit gestern morgen mit rum, und bekomme es nicht hin... Danke hier nochmal der bisherige Code, damit ihr nicht suchen müsst (mit neuem Parameter für pdftotxt.exe): Code: (dl
)
1 #! /usr/bin/env perl Alter Mann ist kein D-Zug... :D
|