Workflow: Durchsuchbares PDF mit Inhaltsverzeichnis aus Buch in Fraktur
Hier eine Anleitung, wie man ein altes, in Fraktur gesetztes Papierbuch in ein durchsuchbares PDF mit klickbaren Inhaltsverzeichnis umwandeln kann ohne in teure Software investieren zu müssen.
Grundlagen:
Für die Durchsuchbarkeit muss der Text im Buch erkannt werden ("OCR") und als "normaler" Computertext unsichtbar über die gescannten Buchseiten-Bilder im PDF gelegt werden.
Für das Verzeichnis werden Bookmarks verwendet, die auf die entsprechenden Seiten verweisen.
1.) Scannen:
Mittels der Scannersoftware in eine PDF-Datei scannen:
-> Textseiten mit 300 dpi (besser 600 dpi) möglichst in Schwarz/weiß (monochrome) "textoptimiert"
-> Seiten mit Bildern als Graustufen oder Bunt (Auflösung anpassen, evt. "Descreen" gegen Moires)
Wenn nicht in einem Rutsch gescannt werden konnte, dann lassen sich die einzelnen Dateien mittels PDFSam zusammenfügen. Jetzt ist die "Scandatei" erstellt. Sie enthält monochrome Textseiten und farbige Bilderseiten.
2.) Texterkennung und Anlage des "unsichtbaren" Textlayers:
Zur Texterkennung wird Tesseract mit dessen grafischer Benutzeroberfläche gImageReader genutzt. (Deutsch-Fraktur kann über den "manage Languages"-Punkt im "recognize"-Menü installiert werden - dazu gImageReader als Admin starten und ein PDF-Dokument laden!)
Nach dem Erkennungsdurchlauf exportiert man als PDF mit "unsichtbarem Textlayer", Schriftart (z.B. Maximiliam), Schriftgröße (110%) bei Export etc. einstellen.
Exportformat als Monochrome mit CCCIT-Kompression.
Da in der mit gImageReader erstellten Datei auch alle Bilderseiten monochrom (und damit unansehnlich) gespeichert wurden müssen die Bilderseiten in dieser Datei nun noch durch die farbigen Bilderseiten aus der "Scandatei" ersetzt werden. Dazu kann wieder PDFSam genutzt werden ("Merge"-Funktion mit Seitenbereichsangaben).
Wir erhalten dadurch die fertige "OCR-Datei" mit monochromen Textseiten, farbigen Bilderseiten und unsichtbaren Textlayer.
3.) Inhaltsverzeichnis:
Mittels pdftk (siehe https://www.pdflabs.com/blog/export-and-import-pdf-bookmarks/) kann das Verzeichnis in Form von Bookmarks aus einer Datei in das PDF eingefügt werden.
Die entsprechende Verzeichnis-Datei hat folgendes Format:
(z.B. http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii)
Das pdftk-Programm wird an der Kommandozeile aufgerufen:
d:\MeinBuch>pdftk OCR-Datei.pdf update_info Verzeichnis-Datei.txt output Fertiges-Buch.pdf
Damit sollte das durchsuchbare PDF mit funktionierendem Inhaltsverzeichnis erstellt sein!
--
Verwendete Software:
http://www.pdfsam.org/
https://sourceforge.net/projects/gimagereader/
https://github.com/tesseract-ocr/tessdata (zur evtl. manuellen Sprachdateien-Installation)
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii
http://www.dafont.com/de/maximilian.font
--
Stichworte:
Buch digitalisieren, OCR Fraktur, Volltextsuche, pdftk, Schrifterkennung
Grundlagen:
Für die Durchsuchbarkeit muss der Text im Buch erkannt werden ("OCR") und als "normaler" Computertext unsichtbar über die gescannten Buchseiten-Bilder im PDF gelegt werden.
Für das Verzeichnis werden Bookmarks verwendet, die auf die entsprechenden Seiten verweisen.
1.) Scannen:
Mittels der Scannersoftware in eine PDF-Datei scannen:
-> Textseiten mit 300 dpi (besser 600 dpi) möglichst in Schwarz/weiß (monochrome) "textoptimiert"
-> Seiten mit Bildern als Graustufen oder Bunt (Auflösung anpassen, evt. "Descreen" gegen Moires)
Wenn nicht in einem Rutsch gescannt werden konnte, dann lassen sich die einzelnen Dateien mittels PDFSam zusammenfügen. Jetzt ist die "Scandatei" erstellt. Sie enthält monochrome Textseiten und farbige Bilderseiten.
2.) Texterkennung und Anlage des "unsichtbaren" Textlayers:
Zur Texterkennung wird Tesseract mit dessen grafischer Benutzeroberfläche gImageReader genutzt. (Deutsch-Fraktur kann über den "manage Languages"-Punkt im "recognize"-Menü installiert werden - dazu gImageReader als Admin starten und ein PDF-Dokument laden!)
Nach dem Erkennungsdurchlauf exportiert man als PDF mit "unsichtbarem Textlayer", Schriftart (z.B. Maximiliam), Schriftgröße (110%) bei Export etc. einstellen.
Exportformat als Monochrome mit CCCIT-Kompression.
Da in der mit gImageReader erstellten Datei auch alle Bilderseiten monochrom (und damit unansehnlich) gespeichert wurden müssen die Bilderseiten in dieser Datei nun noch durch die farbigen Bilderseiten aus der "Scandatei" ersetzt werden. Dazu kann wieder PDFSam genutzt werden ("Merge"-Funktion mit Seitenbereichsangaben).
Wir erhalten dadurch die fertige "OCR-Datei" mit monochromen Textseiten, farbigen Bilderseiten und unsichtbaren Textlayer.
3.) Inhaltsverzeichnis:
Mittels pdftk (siehe https://www.pdflabs.com/blog/export-and-import-pdf-bookmarks/) kann das Verzeichnis in Form von Bookmarks aus einer Datei in das PDF eingefügt werden.
Die entsprechende Verzeichnis-Datei hat folgendes Format:
BookmarkBegin BookmarkTitle: Kapitel 1 BookmarkLevel: 1 BookmarkPageNumber: 2 BookmarkBegin BookmarkTitle: Kapitel 2 BookmarkLevel: 1 BookmarkPageNumber: 9 BookmarkBegin BookmarkTitle: Unterkapitel 2.1. BookmarkLevel: 2 BookmarkPageNumber: 10Nicht-ASCII-Zeichen (Umlaute, Sonderzeichen ...) müssen vor einem Import noch durch Entities ({) ersetzt werden. Zum Encoding bieten sich Onlinedienste an.
(z.B. http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii)
Das pdftk-Programm wird an der Kommandozeile aufgerufen:
d:\MeinBuch>pdftk OCR-Datei.pdf update_info Verzeichnis-Datei.txt output Fertiges-Buch.pdf
Damit sollte das durchsuchbare PDF mit funktionierendem Inhaltsverzeichnis erstellt sein!
--
Verwendete Software:
http://www.pdfsam.org/
https://sourceforge.net/projects/gimagereader/
https://github.com/tesseract-ocr/tessdata (zur evtl. manuellen Sprachdateien-Installation)
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
http://coderstoolbox.net/string/#!encoding=xml&action=encode&charset=us_ascii
http://www.dafont.com/de/maximilian.font
--
Stichworte:
Buch digitalisieren, OCR Fraktur, Volltextsuche, pdftk, Schrifterkennung
techomatic - 2017-04-19 13:55