gescannte PDF-Dateien können im Nachhinein mit der Texterkennung OCR versehen werden.
# apt install ocrmypdf # apt install imagemagick parallel ghostscript qpdf unpaper tesseract-ocr
ocrmypdf wird über die Kommandozeile gesteuert. Dazu genügt die Eingabe in der Form:
$ ocrmypdf pfad/zur/eingabe.pdf pfad/zur/ausgabe.pdf
ocrmypdf bietet eine Vielzahl weiterer Optionen, welche dem Befehl mitgegeben werden können. Tippe dazu:
$ ocrmypdf -h