PDF und Texterkennung (OCR)

gescannte PDF-Dateien können im Nachhinein mit der Texterkennung OCR versehen werden.

# apt install ocrmypdf
# apt install imagemagick parallel ghostscript qpdf unpaper tesseract-ocr

ocrmypdf wird über die Kommandozeile gesteuert. Dazu genügt die Eingabe in der Form:

$ ocrmypdf pfad/zur/eingabe.pdf pfad/zur/ausgabe.pdf

ocrmypdf bietet eine Vielzahl weiterer Optionen, welche dem Befehl mitgegeben werden können. Tippe dazu:

$ ocrmypdf -h
Weitere Beispiele:

Alle Dokumente in einem Verzeichnis (inkl. aller Unerordner) zu OCR zwingen. Damit werden alle Dokumente neu konvertiert, ob sie nun bereits OCR haben oder nicht. Vorsicht, das kann sehr lange dauern:

$ find . -name '*.pdf' -exec ocrmypdf --force-ocr '{}' '{}' \;

alternativ dazu die Version, in der nur PDF behandelt werden, welche noch kein OCR beinhalten. Vorsicht, auch das kann lange dauern:

$ find . -name '*.pdf' -exec ocrmypdf '{}' '{}' \;

Ein einzelnes Dokument mit OCR versehen und überschreiben:

$ ocrmypdf dokument.pdf dokument.pdf