Workflow: Durchsuchbares PDF mit Inhaltsverzeichnis aus Buch mit Fraktur

Hier eine Anleitung, wie man ein altes, in Fraktur geschriebenes Papierbuch in ein durchsuchbares PDF mit klickbaren Inhaltsverzeichnis umwandeln kann ohne in teure Software investieren zu müssen.

Grundlagen:
Für die Durchsuchbarkeit muss der Text im Buch erkannt werden ("OCR") und als "normaler" Computertext unsichtbar über die gescannten Buchseiten-Bilder im PDF gelegt werden.
Für das Verzeichnis werden Bookmarks verwendet, die auf die entsprechenden Seiten verweisen.

1.) Scannen:
Mittels der Scannersoftware in eine PDF-Datei scannen:
-> Textseiten mit 300 dpi (besser 600 dpi) möglichst in Schwarz/weiß (monochrome) "textoptimiert"
-> Seiten mit Bildern als Graustufen oder Bunt (Auflösung anpassen, evt. "Descreen" gegen Moires)

Wenn nicht in einem Rutsch gescannt werden konnte, dann lassen sich die einzelnen Dateien mittels PDFSam zusammenfügen. Jetzt ist die "Scandatei" erstellt. Sie enthält monochrome Textseiten und farbige Bilderseiten.

2.) Texterkennung und Anlage des "unsichtbaren" Textlayers:
Zur Texterkennung wird gImageReader mit dem Fraktur-Paket genutzt. Nach dem Erkennungsdurchlauf exportiert man als PDF mit "unsichtbarem Textlayer", Schriftart (z.B. Maximiliam), Schriftgröße (110%) bei Export etc. einstellen.
Exportformat als Monochrome mit CCCIT-Kompression.

Da in der mit gImageReader erstellten Datei auch alle Bilderseiten monochrom (und damit unansehnlich) gespeichert wurden müssen die Bilderseiten in dieser Datei nun noch durch die farbigen Bilderseiten aus der "Scandatei" ersetzt werden. Dazu kann wieder PDFSam genutzt werden ("Merge"-Funktion mit Seitenbereichsangaben).

Wir erhalten dadurch die fertige "OCR-Datei" mit monochromen Textseiten, farbigen Bilderseiten und unsichtbaren Textlayer.

3.) Inhaltsverzeichnis:
Mittels pdftk (siehe https://www.pdflabs.com/blog/export-and-import-pdf-bookmarks/) kann das Verzeichnis in Form von Bookmarks aus einer Datei in das PDF eingefügt werden.
Die entsprechende Verzeichnis-Datei hat folgendes Format:
BookmarkBegin
BookmarkTitle: Kapitel 1
BookmarkLevel: 1
BookmarkPageNumber: 2

BookmarkBegin
BookmarkTitle: Kapitel 2
BookmarkLevel: 1
BookmarkPageNumber: 9

BookmarkBegin
BookmarkTitle: Unterkapitel 2.1.
BookmarkLevel: 2
BookmarkPageNumber: 10
Nicht-ASCII-Zeichen (Umlaute, Sonderzeichen ...) müssen vor einem Import noch durch Entities ({) ersetzt werden. Zum Encoding bieten sich Onlinedienste an.
(z.B. http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii)

Das pdftk-Programm wird an der Kommandozeile aufgerufen:
d:\MeinBuch>pdftk OCR-Datei.pdf update_info Verzeichnis-Datei.txt output Fertiges-Buch.pdf

Damit sollte das durchsuchbare PDF mit funktionierendem Inhaltsverzeichnis erstellt sein!

--

Verwendete Software:
http://www.pdfsam.org/
https://sourceforge.net/projects/gimagereader/
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii
http://www.dafont.com/de/maximilian.font

--

Stichworte:
Buch digitalisieren, OCR Fraktur, Volltextsuche, pdftk, Schrifterkennung

Name

Url

Meine Eingaben merken?

Titel:

Text:


JCaptcha - du musst dieses Bild lesen können, um das Formular abschicken zu können
Neues Bild

 

Suche

 

Aktuelle Beiträge

Workflow: Durchsuchbares...
Hier eine Anleitung, wie man ein altes, in Fraktur...
techomatic - 19. Apr, 14:15
mp4-Videos mit Virtualdub...
Für Virtualdub gibt es einen sehr guten Entwackler...
techomatic - 15. Feb, 18:39
John
I appreciate you sharing this article.Thanks Again....
Smithe886 (Gast) - 17. Okt, 05:34
Shimano Altus SL-M310...
Die 3-Gang-Rücktrittnabe Shimano Nexus Inter-3...
techomatic - 11. Aug, 21:03
Raspberry Pi - Desktop...
Läßt man einen RaspberryPi unter Raspbian...
techomatic - 19. Feb, 16:47

Credits

Knallgrau New Media Solutions - Web Agentur f�r neue Medien

powered by Antville powered by Helma


xml version of this page

twoday.net AGB

click tracking

Status

Online seit 3365 Tagen
Zuletzt aktualisiert: 19. Apr, 14:18

Gesellschaft
Hardware
Software
Sonstiges
Profil
Abmelden
Weblog abonnieren