Schrift
[thread]11560[/thread]

PDF-Tabelle auswerten

Tags: Ähnliche Threads

Leser: 3


<< >> 6 Einträge, 1 Seite
roli
 2008-04-02 18:45
#107759 #107759
User since
2004-12-31
424 Artikel
BenutzerIn
[default_avatar]
Hallo,

ich habe eine PDF Datei die eine Tabelle enthält. Besteht die Möglichkeit hier eine von mir vorgegebene Spalte auszulesen, um sie anschliessend weiter zu verarbeiten?

Danke
Roland
--
"Steh vorn, während du fragst;
sitzen soll, wer antwortet."
Aus "Die Edda des Snorri Sturluson" "Gylfis Täuschung" Strophe 2
Gast Gast
 2008-04-02 23:32
#107766 #107766
Das halte ich für fast nicht möglich. Es gibt zwar Programme, die text aus PDF extrahieren, aber da ja PDF keine Tabellen kennt und das nur noch Text mit linien ist, würde ich mal behaupten, das geht nicht.

Rolf
roli
 2008-04-03 11:59
#107787 #107787
User since
2004-12-31
424 Artikel
BenutzerIn
[default_avatar]
Hi,

mit so 'ner Antwort habe ich gerechnet, aber die Hoffnung stirbt halt zuletzt.

Danke
Roland
--
"Steh vorn, während du fragst;
sitzen soll, wer antwortet."
Aus "Die Edda des Snorri Sturluson" "Gylfis Täuschung" Strophe 2
GwenDragon
 2008-04-06 16:29
#107947 #107947
User since
2005-01-17
14533 Artikel
Admin1
[Homepage]
user image
PDF ist Dokumentaustauschformat mit der grafischen Seitenbeschreibungssprache Postscript.
Dort gibt es keine Tabellen.
Das ist keine Textverarbeitung oder Tabellenkalkulation.
Was du als Tabelle siehst, ist in Wirklichkeit Text mit Linien oder Rechtecken als Rahmen.
die Drachin, Gwendolyn


Unterschiedliche Perl-Versionen auf Windows (fast wie perlbrew) • Meine Perl-Artikel

Gast Gast
 2008-04-07 01:06
#107971 #107971
Hi Roli

Du könntest Wörter und Tabelleneinträge anhand der Buchstabenpositionen erkennen und rekonstruieren

Habe sowas schon selbst gemacht ist aber recht aufwändig und lohnt sich erst wenn du viele Dokumente mit einem fixen Format hast,

Unter *nix gibts z.B. pdftotext wenn du mit sowas experimentieren möchtest.

Grüße
LanX

PS: wollte mich registrieren, mein Mailaccount war aber leider gerade deaktiviert, wird mein Nick wrklich erst in 6 Monaten freigegeben???
heihon
 2008-04-07 18:31
#108010 #108010
User since
2006-09-15
15 Artikel
BenutzerIn
[default_avatar]
Hi Roli,

Gast+2008-04-06 23:06:11--
Unter *nix gibts z.B. pdftotext wenn du mit sowas experimentieren möchtest.


schau Dir mal XPDF an.
Da gibt es das genannte pdftotext für alle wichtigen Betriebssysteme, nicht nur für *nix.

Je nach der Software, die die PDFs erzeugt hat, kann man damit schon ziemlich weit kommen.
Eventuell helfen die Optionen
Code: (dl )
1
2
3
4
-layout
Maintain (as best as possible) the original physical layout of
the text. The default is to 'undo' physical layout (columns,
hyphenation, etc.) and output the text in reading order.

oder
Code: (dl )
1
2
3
-fixed number
Assume fixed-pitch (or tabular) text, with the specified charac-
ter width (in points). This forces physical layout mode.
<< >> 6 Einträge, 1 Seite



View all threads created 2008-04-02 18:45.