Thread Suche Modul PDF -> HTML (4 answers)
Opened by kristian at 2010-07-19 13:17

topeg
 2010-07-19 15:23
#139928 #139928
User since
2006-07-10
2611 Artikel
BenutzerIn

user image
Ich habe mich schon mit so was (bei Postscript) beschäftigt und kann sagen, das es nur sehr spezifisch zu lösen ist. Z.B für die Erkennung von Tabellen habe ich fast eine Woche aufgewendet und sie funktionierte nur sehr spezifisch auf die zu bearbeitenden Dokumente. PDF (sowie PS) sind Postitionsorientierte Formate, die kaum noch Inhaltliche Formatierungen enthalten. Daraus HTML oder andere Dokumente mit komplexen Metainformationen zum Dokumentinhalt zu machen ist sehr schwierig.

View full thread Suche Modul PDF -> HTML