Wie kann ich den Text aus ps- und pdf-Dateien extrahieren?

Voraussetzung dazu ist, dass die pdf- oder ps-Datei nicht in Bitmap-Schriften mit ZeichensatzUmwandlung gesetzten Text enthält, wie zum Beispiel bei pdf-Dateien, die mit ps2pdf erzeugt wurden (siehe man ps2pdf) oder den aus solchen pdf-Dateien durch Drucken in eine Datei erzeugten ps-Dateien. In diesem Fall kann im Text nicht gesucht werden, es kann kein Text aus acroread kopiert werden, die Markierungsfunktion in acroread funktioniert sehr eigenwillig, und es kann auch kein ASCII-Text extrahiert werden, da kein Text in ASCII-Encoding mehr in solchen Dokumenten steht.
Andernfalls ist das Verfahren recht einfach, zum Beispiel mit dem Dokument »Acrobat Reader Guide« /usr/X11R6/lib/Acrobat4/Reader/help/reader.pdf, der in jedem Acrobat Reader über »Help | Reader Guide« aufgerufen werden kann. Solche Dateien mit echtem Text können daran erkannt werden, dass Markieren und Kopieren von Text in Acrobat Reader ohne weiteres funktioniert; durch Einfügen in ein anderes Programm wie kedit hat man bereits eine Konvertierung zu ASCII-Text erreicht. Dies ist jedoch auch über Scripte zu machen; das Tool ps2ascii verwenden, das jedem ghostscript-Paket beiliegt, sollte man jedoch meiden, da es nur Fehler und keinen Text produziert. Geeignet, sowohl für ps- als pdf-Dateien, Ausgabe in plain ASCII oder einfachem HTML, ist jedoch pstotext, zu beziehen unter http://freshmeat.net/redir/pstotext/8442/url_homepage/ bzw. direkt unter http://research.compaq.com/SRC/virtualpaper/pstotext.html.


Posted

in

,

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.