Thread Benötige Perl-Skript zur Auswertung von .pdf-Dateien (14 answers)
Opened by ClaudiaRohmeier at 2013-03-06 15:09

ClaudiaRohmeier
 2013-03-06 15:09
#166245 #166245
User since
2013-03-06
2 Artikel
BenutzerIn
[default_avatar]
Liebe Perl-Community,

ich habe eine Frage etwas im Abseits. Ich muss zunächst vorausschicken, dass ich selbst keine Erfahrung mit der Programmierung in Perl besitze. Es geht um die Realisation eines Forschungsprojekts, für das ich ein Skript benötige, hinsichtlich dessen Realisierbarkeit ich wiederum zunächst die Einschätzung von erfahrenen Perl-Programmieren benötige.

Warum komme ich damit ausgerechnet hierher/Warum ausgerechnet Perl?
>>Ein methodisch ähnliches Forschungsvorhaben wurde bereits von anderen Wissenschaftlern durchgeführt. Im Paper wurde jedoch nur die Angabe gemacht, dass ein individuell angefertigtes Perl-Script zur Durchführung genutzt wurde. Da ich allgemein über eher begrenzte Erfahrungen im Bereich IT und im Speziellen im Bereich der Programmierung verfüge, mangelt es mir schlicht an alternativen Ideen zur Durchführung. Deshalb frage ich hier nach in der Hoffnung, dass mir evtl. (gerne auch mit Verweis auf andere Programmiersprachen/Programme/...) weitergeholfen werden kann.

Worum geht es/Was soll gemacht werden?
>> Bitte entschuldigt zunächst, dass ich über den Fachbereich und das Forschungsprojekt im Allgemeinen gerne eher nur wenige Informationen veröffentlichen möchte um zu verhindern, dass das Projekt ggf. von anderen vorweggenommen und veröffentlicht wird. Was grob getan werden soll ist Folgendes: Ich verfüge über etwa 300 .pdf-files (beinhalten überwiegend Text; OCR-Programm habe ich bereits drüber laufen lassen), die systematisch auf bestimmte Schlüsselbegriffe ausgewertet werden sollen. Das Script soll idealerweise die .pdf-files alle nach bestimmten Schlüsselbegriffen durchsuchen, anschließend (1) die Wortzahl des Absatzes bzw zumindest des gesamten Dokuments, (2) die Position der gefundenen Begriffe innerhalb des Dokuments (z.B. Seite und Wortzahl von Beginn des Dokuments an) und (3) den ganzen Satz, in dem einer der Schlüsselbegriffe auftaucht, gebündelt und strukturiert in einer Excel Datei ausgeben.

Daher zunächst meine Frage, für wie kompliziert Ihr die Umsetzung dieses Vorhabens in einem Perl-Skript haltet oder wie Ihr hier alternativ vorgehen würdet. Für jeden Hinweise bzw. Hilfe bin ich sehr dankbar.

Mit besten Grüßen

ClaudiaRohmeier
Last edited: 2013-03-06 15:15:38 +0100 (CET)

View full thread Benötige Perl-Skript zur Auswertung von .pdf-Dateien