Mittwoch, 19. April 2017

Workflow: Durchsuchbares PDF mit Inhaltsverzeichnis aus Buch in Fraktur

Hier eine Anleitung, wie man ein altes, in Fraktur gesetztes Papierbuch in ein durchsuchbares PDF mit klickbaren Inhaltsverzeichnis umwandeln kann ohne in teure Software investieren zu müssen.

Grundlagen:
Für die Durchsuchbarkeit muss der Text im Buch erkannt werden ("OCR") und als "normaler" Computertext unsichtbar über die gescannten Buchseiten-Bilder im PDF gelegt werden.
Für das Verzeichnis werden Bookmarks verwendet, die auf die entsprechenden Seiten verweisen.

1.) Scannen:
Mittels der Scannersoftware in eine PDF-Datei scannen:
-> Textseiten mit 300 dpi (besser 600 dpi) möglichst in Schwarz/weiß (monochrome) "textoptimiert"
-> Seiten mit Bildern als Graustufen oder Bunt (Auflösung anpassen, evt. "Descreen" gegen Moires)

Wenn nicht in einem Rutsch gescannt werden konnte, dann lassen sich die einzelnen Dateien mittels PDFSam zusammenfügen. Jetzt ist die "Scandatei" erstellt. Sie enthält monochrome Textseiten und farbige Bilderseiten.

2.) Texterkennung und Anlage des "unsichtbaren" Textlayers:
Zur Texterkennung wird Tesseract mit dessen grafischer Benutzeroberfläche gImageReader genutzt. (Deutsch-Fraktur kann über den "manage Languages"-Punkt im "recognize"-Menü installiert werden - dazu gImageReader als Admin starten und ein PDF-Dokument laden!)
Nach dem Erkennungsdurchlauf exportiert man als PDF mit "unsichtbarem Textlayer", Schriftart (z.B. Maximiliam), Schriftgröße (110%) bei Export etc. einstellen.
Exportformat als Monochrome mit CCCIT-Kompression.

Da in der mit gImageReader erstellten Datei auch alle Bilderseiten monochrom (und damit unansehnlich) gespeichert wurden müssen die Bilderseiten in dieser Datei nun noch durch die farbigen Bilderseiten aus der "Scandatei" ersetzt werden. Dazu kann wieder PDFSam genutzt werden ("Merge"-Funktion mit Seitenbereichsangaben).

Wir erhalten dadurch die fertige "OCR-Datei" mit monochromen Textseiten, farbigen Bilderseiten und unsichtbaren Textlayer.

3.) Inhaltsverzeichnis:
Mittels pdftk (siehe https://www.pdflabs.com/blog/export-and-import-pdf-bookmarks/) kann das Verzeichnis in Form von Bookmarks aus einer Datei in das PDF eingefügt werden.
Die entsprechende Verzeichnis-Datei hat folgendes Format:
BookmarkBegin
BookmarkTitle: Kapitel 1
BookmarkLevel: 1
BookmarkPageNumber: 2

BookmarkBegin
BookmarkTitle: Kapitel 2
BookmarkLevel: 1
BookmarkPageNumber: 9

BookmarkBegin
BookmarkTitle: Unterkapitel 2.1.
BookmarkLevel: 2
BookmarkPageNumber: 10
Nicht-ASCII-Zeichen (Umlaute, Sonderzeichen ...) müssen vor einem Import noch durch Entities ({) ersetzt werden. Zum Encoding bieten sich Onlinedienste an.
(z.B. http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii)

Das pdftk-Programm wird an der Kommandozeile aufgerufen:
d:\MeinBuch>pdftk OCR-Datei.pdf update_info Verzeichnis-Datei.txt output Fertiges-Buch.pdf

Damit sollte das durchsuchbare PDF mit funktionierendem Inhaltsverzeichnis erstellt sein!

--

Verwendete Software:
http://www.pdfsam.org/
https://sourceforge.net/projects/gimagereader/
https://github.com/tesseract-ocr/tessdata (zur evtl. manuellen Sprachdateien-Installation)
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii
http://www.dafont.com/de/maximilian.font

--

Stichworte:
Buch digitalisieren, OCR Fraktur, Volltextsuche, pdftk, Schrifterkennung

Trackback URL:
http://sysout.twoday.net/stories/1022614789/modTrackback

Suche

 

Aktuelle Beiträge

Workflow: Durchsuchbares...
Hier eine Anleitung, wie man ein altes, in Fraktur...
techomatic - 2017-07-10 23:26
[WIN7] Benutzerprofil...
Wenn nach der Anmeldung die Fehlermeldung erscheint: Die...
techomatic - 2017-05-30 23:05
Thank You
Thank you, very helpful.
Markus H (Gast) - 2017-05-23 15:48
Fehler: Asterisk (agi...
Wenn Asterisk (auf raspbian) die Verarbeitung eines...
techomatic - 2017-05-13 13:58
SBS 2011 / Server 2008...
Wer den WSUS auf seinem SBS 2011 / Server 2008 R2 stillgelegt...
techomatic - 2017-05-02 21:12

Credits

Knallgrau New Media Solutions - Web Agentur f�r neue Medien

powered by Antville powered by Helma


xml version of this page

twoday.net AGB

click tracking

Status

Online seit 3450 Tagen
Zuletzt aktualisiert: 2017-07-11 03:19

Gesellschaft
Hardware
Software
Sonstiges
Profil
Abmelden
Weblog abonnieren