Jakub Cabal · @xcabal05
174 followers · 88 posts · Server witter.cz

Skenoval jsem archivní čísla zpravodaje z mé rodné vsi s využitím OCR. Pro zajímavost jsme s @vavracze udělali srovnání OCR textu z nástroje (vlevo) a Canon tiskárny (vpravo). Přestože OCRmyPDF je nástroj, jeho OCR výstup má velmi dobré výsledky.

#ocrmypdf #opensource

Last updated 1 year ago

gihyo.jp · @gihyo
4 followers · 15 posts · Server rss-mstdn.studiofreesia.com
Alexandre B A Villares 🐍 · @villares
939 followers · 2074 posts · Server ciberlandia.pt

@neil @marinheiro for the benefit of others reading this: github.com/ocrmypdf/OCRmyPDF

#ocr #pdf #ocrmypdf

Last updated 1 year ago

Dominik Bucheli · @buchi
50 followers · 44 posts · Server verkehrswende.social
Ben S. · @HunterZ
138 followers · 1767 posts · Server mastodon.sdf.org

Working through hitches with the last document:
- font in last tweet wasn't getting used (had to tweak it in FontForge)
- bits of text underlay visible (optimization fixed it)
- encoder used by optimization scrambled glyphs (disabled; I can't trust it now!)

#JBIG2 #ocrmypdf #xp

Last updated 2 years ago

Bluelupo · @bluelupo
340 followers · 2605 posts · Server social.tchncs.de

Texterkennung (OCR) von PDFs unter Linux

write.tchncs.de/~/Paperless/sc

...ein sehr fundierter Artikel wie man Hilfe von OCR PDF-Dateien nach Text durchsuchbar macht. Das Ganze ist in einem Python Programm verpackt. Von OCRmyPDF gibt es einen offiziellen Docker-Container der vom Entwickler gepflegt wird. Das Python Programm kann man von der Kommandozeile starten um seine PDF's schnell und effektiv umzuwandeln.

#texterkennung #container #kommandozeile #ocrmypdf #docker #linux #pdf #ocr #tesseract

Last updated 2 years ago

· @aluaces
31 followers · 114 posts · Server fosstodon.org

Not its main use, but is excellent for converting jpeg images into small pdf files.

#ocrmypdf

Last updated 2 years ago

Parleur · @parleur
487 followers · 23675 posts · Server mastodon.parleur.net

Ho, mais ça marche rudement bien,  !

#ocrmypdf

Last updated 2 years ago

tuxwise · @tuxwise
29 followers · 93 posts · Server social.tchncs.de

Recommended tool:

Why? Deskew & clean images before OCR · Multi-language support · PDF/A output · Lossless optimization · Folder watcher · Redo existing OCR · Well documented

More recommendations: tuxwise.net/recommended-softwa

ocrmypdf.readthedocs.io/en/lat

#ocrmypdf #ocr #pdf #opensource

Last updated 3 years ago

T.F.G. · @TFG
74 followers · 1225 posts · Server social.linux.pizza

wow.. and even recognizing hyphenation 😱 😱

#ocrmypdf

Last updated 3 years ago

Mr. Teatime · @Mr_Teatime
119 followers · 7316 posts · Server social.tchncs.de

@stardenver

Bin ebenfalls bei gelandet (für einzelne PDFs, aber lässt sich ja scripten). Normalerweise überspringt es OCR, wenn schon ein Textlayer vorhanden ist.

Was ich besonders mag ist auch die Option, den Inhalt per verlustbehaftet zu komprimieren, falls das installiert ist.

#ocrmypdf #pngquant

Last updated 5 years ago