PDF und Texterkennung (OCR)

gescannte PDF-Dateien können im Nachhinein mit der Texterkennung OCR versehen werden.

# apt install ocrmypdf
# apt install imagemagick parallel ghostscript qpdf unpaper tesseract-ocr

ocrmypdf wird über die Kommandozeile gesteuert. Dazu genügt die Eingabe in der Form:

$ ocrmypdf pfad/zur/eingabe.pdf pfad/zur/ausgabe.pdf

ocrmypdf bietet eine Vielzahl weiterer Optionen, welche dem Befehl mitgegeben werden können. Tippe dazu:

$ ocrmypdf -h

Hinterlassen Sie einen Kommentar