Thread ca. 1200 PDF-Dateien auslesen und bestimmte Daten in eine CSV-Datei speichern (20 answers)
Opened by Thyrius at 2014-07-15 21:55

Thyrius
 2014-07-15 23:14
#176459 #176459
User since
2013-01-23
42 articles
BenutzerIn

user image
uuhhhh... ich könnt Dich... ok, genug... :D DANKÖÖÖÖ

Super, nachdem ich in Zeile 12 das .pdf in .txt geändert hatte, klappte es.
Allerdings ohne Semikolon, und damit halt alles in einer Excel-Zelle pro Datei.

Wenn wir dies nun noch hinbekämen...

wie ich Eingang schrieb, hatte ich mit pdftotxt alle dateien in ein text.file umbenannt. die ersten, sagen wir 5 zeilen sehen so aus:

Quote
(Absender) Name Straße HSN PLZ Ort
Frau (Empfänger) Nachname Vorname Straße HSN PLZ Ort

Firma XYZ GmbH & Co.KG
Kirchplatz 007 66663 Merzig Telefon: 068611234 Fax: 068614321 E-Mail: ich@du.er
Kundenübersicht
Druckdatum 10.07.2014


Genau um die Zweite zeile mit dem Inhalt: "Frau (Empfänger) Nachname Vorname Straße HSN PLZ Ort" geht es.

Diese sollten vorzugsweise mit Semikolon getrennt sein.

In der PDF-Datei stehen sie alle untereinander, wie man Adressen halt schreibt.

Ich versuche jetzt mal, die PDF`s ohne umwandeln zu lesen...
.
.
.
So, also, Versuch mit den PDF-Dateien:
Ergebnis:

innerhalb der adressen.csv sind nun folgende Einträge drinn:
Quote
6 0 obj
<</Linearized 1/L 58996/O 8/E 54626/N 1/T 58757/H [ 836 198]>>
endobj

6 0 obj
<</Linearized 1/L 58839/O 8/E 54469/N 1/T 58600/H [ 836 198]>>
endobj

8 0 obj
<</Linearized 1/L 61777/O 10/E 55753/N 2/T 61498/H [ 836 232]>>
endobj
usw...

Irgednwas scheint er dann nicht hinzubekommen. Aber das mit der .txt klappt ja, bis auf die Semikolons...
Last edited: 2014-07-15 23:19:29 +0200 (CEST)
Alter Mann ist kein D-Zug... :D

View full thread ca. 1200 PDF-Dateien auslesen und bestimmte Daten in eine CSV-Datei speichern