Mittwoch, 19. April 2017

Workflow: Durchsuchbares PDF mit Inhaltsverzeichnis aus Buch in Fraktur

Hier eine Anleitung, wie man ein altes, in Fraktur gesetztes Papierbuch in ein durchsuchbares PDF mit klickbaren Inhaltsverzeichnis umwandeln kann ohne in teure Software investieren zu müssen.

Grundlagen:
Für die Durchsuchbarkeit muss der Text im Buch erkannt werden ("OCR") und als "normaler" Computertext unsichtbar über die gescannten Buchseiten-Bilder im PDF gelegt werden.
Für das Verzeichnis werden Bookmarks verwendet, die auf die entsprechenden Seiten verweisen.

1.) Scannen:
Mittels der Scannersoftware in eine PDF-Datei scannen:
-> Textseiten mit 300 dpi (besser 600 dpi) möglichst in Schwarz/weiß (monochrome) "textoptimiert"
-> Seiten mit Bildern als Graustufen oder Bunt (Auflösung anpassen, evt. "Descreen" gegen Moires)

Wenn nicht in einem Rutsch gescannt werden konnte, dann lassen sich die einzelnen Dateien mittels PDFSam zusammenfügen. Jetzt ist die "Scandatei" erstellt. Sie enthält monochrome Textseiten und farbige Bilderseiten.

2.) Texterkennung und Anlage des "unsichtbaren" Textlayers:
Zur Texterkennung wird Tesseract mit dessen grafischer Benutzeroberfläche gImageReader genutzt. (Deutsch-Fraktur kann über den "manage Languages"-Punkt im "recognize"-Menü installiert werden - dazu gImageReader als Admin starten und ein PDF-Dokument laden!)
Nach dem Erkennungsdurchlauf exportiert man als PDF mit "unsichtbarem Textlayer", Schriftart (z.B. Maximiliam), Schriftgröße (110%) bei Export etc. einstellen.
Exportformat als Monochrome mit CCCIT-Kompression.

Da in der mit gImageReader erstellten Datei auch alle Bilderseiten monochrom (und damit unansehnlich) gespeichert wurden müssen die Bilderseiten in dieser Datei nun noch durch die farbigen Bilderseiten aus der "Scandatei" ersetzt werden. Dazu kann wieder PDFSam genutzt werden ("Merge"-Funktion mit Seitenbereichsangaben).

Wir erhalten dadurch die fertige "OCR-Datei" mit monochromen Textseiten, farbigen Bilderseiten und unsichtbaren Textlayer.

3.) Inhaltsverzeichnis:
Mittels pdftk (siehe https://www.pdflabs.com/blog/export-and-import-pdf-bookmarks/) kann das Verzeichnis in Form von Bookmarks aus einer Datei in das PDF eingefügt werden.
Die entsprechende Verzeichnis-Datei hat folgendes Format:
BookmarkBegin
BookmarkTitle: Kapitel 1
BookmarkLevel: 1
BookmarkPageNumber: 2

BookmarkBegin
BookmarkTitle: Kapitel 2
BookmarkLevel: 1
BookmarkPageNumber: 9

BookmarkBegin
BookmarkTitle: Unterkapitel 2.1.
BookmarkLevel: 2
BookmarkPageNumber: 10
Nicht-ASCII-Zeichen (Umlaute, Sonderzeichen ...) müssen vor einem Import noch durch Entities ({) ersetzt werden. Zum Encoding bieten sich Onlinedienste an.
(z.B. //coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii)

Das pdftk-Programm wird an der Kommandozeile aufgerufen:
d:\MeinBuch>pdftk OCR-Datei.pdf update_info Verzeichnis-Datei.txt output Fertiges-Buch.pdf

Damit sollte das durchsuchbare PDF mit funktionierendem Inhaltsverzeichnis erstellt sein!

--

Verwendete Software:
//www.pdfsam.org/
https://sourceforge.net/projects/gimagereader/
https://github.com/tesseract-ocr/tessdata (zur evtl. manuellen Sprachdateien-Installation)
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
//coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii
//www.dafont.com/de/maximilian.font

--

Stichworte:
Buch digitalisieren, OCR Fraktur, Volltextsuche, pdftk, Schrifterkennung

Trackback URL:
//sysout.twoday.net/stories/1022614789/modTrackback

Suche

 

Aktuelle Beiträge

openSSH-Keys mit Putty(gen)...
Ziel: openSSH-Keypaare unter Windows erzeugen Problem: Putty.. .
techomatic - 2021-02-20 13:59
mp4-Videos mit Virtualdub...
Für Virtualdub gibt es einen sehr guten Entwackler...
techomatic - 2018-11-03 21:26
[SMB] XP WIN7 WIN10 Login...
Wer beim Versuch auf Windows-Freigaben eines XP-Rechners...
techomatic - 2018-05-04 22:04
Fastboot eingeschaltet...
Wer im BIOS seines Notebook/Laptop die FASTBOOT-Option...
techomatic - 2018-01-17 20:02
Workflow: Durchsuchbares...
Hier eine Anleitung, wie man ein altes, in Fraktur...
techomatic - 2017-07-10 23:26

Credits

powered by Antville powered by Helma


xml version of this page

twoday.net AGB

click tracking

Status

Online seit 5221 Tagen
Zuletzt aktualisiert: 2021-04-09 23:23

Gesellschaft
Hardware
Software
Sonstiges
Profil
Abmelden
Weblog abonnieren