Workflow: Durchsuchbares PDF mit Inhaltsverzeichnis aus Buch mit Fraktur

Hier eine Anleitung, wie man ein altes, in Fraktur geschriebenes Papierbuch in ein durchsuchbares PDF mit klickbaren Inhaltsverzeichnis umwandeln kann ohne in teure Software investieren zu müssen.

Grundlagen:
Für die Durchsuchbarkeit muss der Text im Buch erkannt werden ("OCR") und als "normaler" Computertext unsichtbar über die gescannten Buchseiten-Bilder im PDF gelegt werden.
Für das Verzeichnis werden Bookmarks verwendet, die auf die entsprechenden Seiten verweisen.

1.) Scannen:
Mittels der Scannersoftware in eine PDF-Datei scannen:
-> Textseiten mit 300 dpi (besser 600 dpi) möglichst in Schwarz/weiß (monochrome) "textoptimiert"
-> Seiten mit Bildern als Graustufen oder Bunt (Auflösung anpassen, evt. "Descreen" gegen Moires)

Wenn nicht in einem Rutsch gescannt werden konnte, dann lassen sich die einzelnen Dateien mittels PDFSam zusammenfügen. Jetzt ist die "Scandatei" erstellt. Sie enthält monochrome Textseiten und farbige Bilderseiten.

2.) Texterkennung und Anlage des "unsichtbaren" Textlayers:
Zur Texterkennung wird gImageReader mit dem Fraktur-Paket genutzt. Nach dem Erkennungsdurchlauf exportiert man als PDF mit "unsichtbarem Textlayer", Schriftart (z.B. Maximiliam), Schriftgröße (110%) bei Export etc. einstellen.
Exportformat als Monochrome mit CCCIT-Kompression.

Da in der mit gImageReader erstellten Datei auch alle Bilderseiten monochrom (und damit unansehnlich) gespeichert wurden müssen die Bilderseiten in dieser Datei nun noch durch die farbigen Bilderseiten aus der "Scandatei" ersetzt werden. Dazu kann wieder PDFSam genutzt werden ("Merge"-Funktion mit Seitenbereichsangaben).

Wir erhalten dadurch die fertige "OCR-Datei" mit monochromen Textseiten, farbigen Bilderseiten und unsichtbaren Textlayer.

3.) Inhaltsverzeichnis:
Mittels pdftk (siehe https://www.pdflabs.com/blog/export-and-import-pdf-bookmarks/) kann das Verzeichnis in Form von Bookmarks aus einer Datei in das PDF eingefügt werden.
Die entsprechende Verzeichnis-Datei hat folgendes Format:
BookmarkBegin
BookmarkTitle: Kapitel 1
BookmarkLevel: 1
BookmarkPageNumber: 2

BookmarkBegin
BookmarkTitle: Kapitel 2
BookmarkLevel: 1
BookmarkPageNumber: 9

BookmarkBegin
BookmarkTitle: Unterkapitel 2.1.
BookmarkLevel: 2
BookmarkPageNumber: 10
Nicht-ASCII-Zeichen (Umlaute, Sonderzeichen ...) müssen vor einem Import noch durch Entities ({) ersetzt werden. Zum Encoding bieten sich Onlinedienste an.
(z.B. http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii)

Das pdftk-Programm wird an der Kommandozeile aufgerufen:
d:\MeinBuch>pdftk OCR-Datei.pdf update_info Verzeichnis-Datei.txt output Fertiges-Buch.pdf

Damit sollte das durchsuchbare PDF mit funktionierendem Inhaltsverzeichnis erstellt sein!

--

Verwendete Software:
http://www.pdfsam.org/
https://sourceforge.net/projects/gimagereader/
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii
http://www.dafont.com/de/maximilian.font

--

Stichworte:
Buch digitalisieren, OCR Fraktur, Volltextsuche, pdftk, Schrifterkennung

Name

Url

Meine Eingaben merken?

Titel:

Text:


JCaptcha - du musst dieses Bild lesen können, um das Formular abschicken zu können
Neues Bild

 

Suche

 

Aktuelle Beiträge

Thank You
Thank you, very helpful.
Markus H (Gast) - 2017-05-23 15:48
Fehler: Asterisk (agi...
Wenn Asterisk (auf raspbian) die Verarbeitung eines...
techomatic - 2017-05-13 13:58
SBS 2011 / Server 2008...
Wer den WSUS auf seinem SBS 2011 / Server 2008 R2 stillgelegt...
techomatic - 2017-05-02 21:12
Office 2003: Excel/Word/Powerpoint...
Ursache ist womöglich die "Office File Validation",...
techomatic - 2017-05-02 10:23
SBS 2011 / Server 2008...
Wenn nach einer Neuinstallation oder Wiederherstellung...
techomatic - 2017-05-02 08:05

Credits

Knallgrau New Media Solutions - Web Agentur f�r neue Medien

powered by Antville powered by Helma


xml version of this page

twoday.net AGB

click tracking

Status

Online seit 3395 Tagen
Zuletzt aktualisiert: 2017-05-23 15:48

Gesellschaft
Hardware
Software
Sonstiges
Profil
Abmelden
Weblog abonnieren