Skenoval jsem archivní čísla zpravodaje z mé rodné vsi s využitím OCR. Pro zajímavost jsme s @vavracze udělali srovnání OCR textu z nástroje #OCRmyPDF (vlevo) a Canon tiskárny (vpravo). Přestože OCRmyPDF je #opensource nástroj, jeho OCR výstup má velmi dobré výsledky.
@neil @marinheiro for the benefit of others reading this: https://github.com/ocrmypdf/OCRmyPDF #OCR #PDF #OCRmyPDF
@343max #OCRmypdf mit Homebrew installieren. https://ocrmypdf.readthedocs.io/en/v11.6.0/batch.html
Texterkennung (OCR) von PDFs unter Linux
https://write.tchncs.de/~/Paperless/schritt-2-texterkennung-ocr-von-pd-fs-unter-linux
...ein sehr fundierter Artikel wie man Hilfe von OCR PDF-Dateien nach Text durchsuchbar macht. Das Ganze ist in einem Python Programm verpackt. Von OCRmyPDF gibt es einen offiziellen Docker-Container der vom Entwickler gepflegt wird. Das Python Programm kann man von der Kommandozeile starten um seine PDF's schnell und effektiv umzuwandeln.
#Tesseract #OCR #PDF #Linux #Docker #OCRmyPDF #Kommandozeile #Container #Texterkennung
#texterkennung #container #kommandozeile #ocrmypdf #docker #linux #pdf #ocr #tesseract
Not its main use, but #ocrmypdf is excellent for converting jpeg images into small pdf files.
Recommended #opensource #PDF #OCR tool: #OCRmyPDF
Why? Deskew & clean images before OCR · Multi-language support · PDF/A output · Lossless optimization · Folder watcher · Redo existing OCR · Well documented
More recommendations: https://tuxwise.net/recommended-software/
#ocrmypdf #ocr #pdf #opensource
wow.. and even recognizing hyphenation 😱 😱
Bin ebenfalls bei #ocrmypdf gelandet (für einzelne PDFs, aber lässt sich ja scripten). Normalerweise überspringt es OCR, wenn schon ein Textlayer vorhanden ist.
Was ich besonders mag ist auch die Option, den Inhalt per #pngquant verlustbehaftet zu komprimieren, falls das installiert ist.