Bereiche
News
Rewind
Tipps & Berichte
Forum
Galerie
Journals
Events
Umfragen
Themenwoche
Kleinanzeigen
Interaktiv
Anmelden
Registrierung
Zu allen empfangenen Nachrichten
Suche...
Zur erweiterten Suche
Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum
>
Software
>
PDF OCR Droplet zur freien Verwendung
PDF OCR Droplet zur freien Verwendung
maybeapreacher
15.06.20
13:16
Hallo zusammen,
ich möchte Euch ein kleines Droplet zur Verfügung stellen das vielleicht für den einen oder die andere hilfreich sein könnte. Meiner Frau nimmt es die Arbeit erheblich ab.
Ihr scannt oft Dokumente, die PDF ist dann aber nicht durchsuchbar noch der Text kopierbar, da es eben nur Bildinformationen sind?
Drag&Drop auf ein Symbol im Dock, und die PDF wurde mit OCR versehen.
Nach der Diskussion und der zur Verfügung gestellten Lösung in diesem Thread
als Ordneraktion, hier als Droplet. Die Ordneraktionen funktionieren zwar, müssen aber immer wieder eingeschaltet werden und scheinen von Apple auch nicht mehr gewollt zu sein. Jedenfalls wird gewarnt dass es eine alte Funktion sei.
Vorraussetzungen: ocrmypdf, installiert über brew.
Brew installieren: https://brew.sh/index_de
ocrmypdf installieren:
brew install ocrmypdf
falls gewünscht, die deutsche (und andere als eng) Sprachunterstützung installieren:
brew install tesseract-lang
Danach einfach das Droplet runterladen, irgendwo auf die Festplatte legen, ins Dock ziehen und freuen. PDFs können nun per Drag&Drop auf das Droplet fallen gelassen werden, und werden mit OCR gescannt und versehen. Schiefe Seiten werden dabei auch noch begradigt sowie Seiten die auf dem Kopf stehen korrigiert:
Ihr könnt die Datei mit dem Script Editor öffnen und überprüfen was ich da mache.
Wen es interessiert: Es basiert einfach auf der Automator-Vorlage "Droplet" und das einzige was ich geändert habe ist, oben bei gültigen Dateitypen "pdf" einzufügen sowie unten in der Aktion folgenden Code auszuführen:
set com to "export LANG=de_DE.UTF-8; export LC_ALL=de_DE.UTF-8; PATH=/usr/local/bin:$PATH; ocrmypdf -l deu+eng --deskew --rotate-pages" & " " & quoted form of POSIX path of this_item & " " & quoted form of POSIX path of this_item
do shell script com
Dachte, ich stelle es Euch mal zur Verfügung, vielleicht hilft es jemandem!
Viele Grüße aus Frankfurt
Hilfreich?
+13
Kommentare
DocTom
15.06.20
15:10
Vielen Dank, das sieht sehr gut aus!
Hilfreich?
+1
beanchen
15.06.20
15:27
Herzlichen Dank! Bin auch noch bei den Ordneraktionen und genervt.
„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“
Hilfreich?
+1
beanchen
15.06.20
15:55
Kleine Rückmeldung:
Bei einem Scan (PDF) mit Textanmerkung kommt folgender Fehler:
ERROR - 1: page already has text! - aborting (use --force-ocr to force OCR)
Als Text ist tatsächlich nur die Anmerkung (Datum) drin.
Ansonsten läuft es top! 👍
„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“
Hilfreich?
+1
maybeapreacher
15.06.20
16:11
Freut mich das es Anklang findet
beanchen: Wenn Du/ihr mögt, könnt ihr die die Datei im Script Editor öffnen und den Befehl ändern.
Da wo "ocrmypdf -l deu+eng"... steht, könntet ihr folgende Option(en) einbauen:
-f : erzwingt OCR auch auf Seiten die schon Text enthalten
-s : überspringt OCR für die Seiten die schon Text enthalten. Die Seite selbst bleibt aber trotzdem Teil des PDFs
--redo-ocr : Entfernt den bereits vorhandenen OCR Teil aus dem PDF und erstellt OCR für alle Seiten neu.
Aus dem Befehl im Script würde dann z.B: das hier werden:
ocrmypdf -f -l deu+eng
oder: ocrmypdf -s -l deu+eng
oder: ocrmypdf --redo-ocr -l deu+eng
Hilfreich?
+1
beanchen
15.06.20
16:12
Danke für die schnelle und ausführliche Antwort, ich werde das heute Abend testen!
„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“
Hilfreich?
+1
Philantrop
15.06.20
17:57
Gleich mal ausprobieren. Ich hab mich noch nicht getraut hier im Forum mal zu fragen, ob jemand Brew einsetzt
Bin ein großer Freund und versuche den Großteil meiner Software hierüber zu beziehen
Hilfreich?
+1
KarstenM
15.06.20
18:14
Philantrop
Gleich mal ausprobieren. Ich hab mich noch nicht getraut hier im Forum mal zu fragen, ob jemand Brew einsetzt
Bin ein großer Freund und versuche den Großteil meiner Software hierüber zu beziehen
Ich tue das tuen.
Bin ebenfalls ein Freund davon. Gibt viele nützliche kleine Helfer dort.
Hilfreich?
+1
camaso
15.06.20
18:43
Das sieht sehr interessant aus. Bevor ich die Installation anwerfe: Wie gut ist die OCR verglichen bspw. mit Acrobat oder Prizmo oder anderen? Und welche Sprachen stehen zur Verfügung? Insbesondere Chinesisch wäre für mich wichtig. Danke für kurze Info!
Hilfreich?
+1
KarstenM
15.06.20
18:59
camaso
Das sieht sehr interessant aus. Bevor ich die Installation anwerfe: Wie gut ist die OCR verglichen bspw. mit Acrobat oder Prizmo oder anderen? Und welche Sprachen stehen zur Verfügung? Insbesondere Chinesisch wäre für mich wichtig. Danke für kurze Info!
Wie gut tesseract ist kann ich nicht sagen. Ich hatte das nur mal Testweise laufen. Zum Sprachsupport findest du hier was (https://tesseract-ocr.github.io/tessdoc/Data-Files)
Hilfreich?
+2
maybeapreacher
15.06.20
19:01
camaso: Zur Qualität im Vergleich kann ich Dir wenig sagen. Ich bin sehr angetan von den Resultaten in Englisch und Deutsch.
Zur Chinesischen Erkennung kann ich nichts sagen. Zur Verfügung stehen alle Sprachen die Tesseract mitbringt. tesseract --list-langs ergibt gleichzeitig auch die Codes die dann in den Befehl eingebaut werden müssen.
Ich nutze nur Deutsch und Englisch, deshalb habe ich: -l deu+eng
Weitere benötigte Sprachen einfach per + hinzufügen. z.B. glaube Afrikaans:
-l deu+eng+afr
Codes die Tesseract ausgibt:
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bre
bul
cat
ceb
ces
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
chr
cos
cym
dan
deu
div
dzo
ell
eng
enm
epo
est
eus
fao
fas
fil
fin
fra
frk
frm
fry
gla
gle
glg
grc
guj
hat
heb
hin
hrv
hun
hye
iku
ind
isl
ita
ita_old
jav
jpn
jpn_vert
kan
kat
kat_old
kaz
khm
kir
kmr
kor
kor_vert
lao
lat
lav
lit
ltz
mal
mar
mkd
mlt
mon
mri
msa
mya
nep
nld
nor
oci
ori
osd
pan
pol
por
pus
que
ron
rus
san
script/Arabic
script/Armenian
script/Bengali
script/Canadian_Aboriginal
script/Cherokee
script/Cyrillic
script/Devanagari
script/Ethiopic
script/Fraktur
script/Georgian
script/Greek
script/Gujarati
script/Gurmukhi
script/HanS
script/HanS_vert
script/HanT
script/HanT_vert
script/Hangul
script/Hangul_vert
script/Hebrew
script/Japanese
script/Japanese_vert
script/Kannada
script/Khmer
script/Lao
script/Latin
script/Malayalam
script/Myanmar
script/Oriya
script/Sinhala
script/Syriac
script/Tamil
script/Telugu
script/Thaana
script/Thai
script/Tibetan
script/Vietnamese
sin
slk
slv
snd
snum
spa
spa_old
sqi
srp
srp_latn
sun
swa
swe
syr
tam
tat
tel
tgk
tha
tir
ton
tur
uig
ukr
urd
uzb
uzb_cyrl
vie
yid
yor
Hilfreich?
+1
beanchen
16.06.20
17:18
camaso
Wie gut ist die OCR verglichen bspw. mit Acrobat oder Prizmo oder anderen?
Nach den ersten Tests würde ich behaupten die reine Texterkennung ist besser als bei Acrobat, die Erkennung was wo dazugehört (Blöcke, Zeichen, Randbemerkungen) ist schlechter. Textauswahl im fertigen Dokument ist damit teilweise nicht so einfach. Benutzt man die Dokumente nur zum durchsuchen, kann einem das aber egal sein. Trefferquote liegt da bei mir bisher bei 100%
„Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html“
Hilfreich?
+4
camaso
16.06.20
20:59
Da das meine Hauptanwendung ist, probiere ich es gelegentlich auch aus. Danke euch allen!
Hilfreich?
+1
maybeapreacher
17.06.20
11:45
Eine Info die mir gerade noch einfällt:
Ihr könnt auch ganze Ordner voller PDFs auf das Droplet werfen.
Ihr seht am Icon im Dock ob er fertig ist oder nicht. Läuft noch = Punkt unter dem Icon. Fertig = Punkt weg.
Habe jetzt aber nicht getestet was mit Fehlern bei einzelnen PDFs passiert etc.
Ein Testordner wurde komplett mit OCR versehen.
Hilfreich?
+2
Kommentieren
Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.
Beddit ist Geschichte, Apple entfernt Apps
iPhone 16 Pro in Einzelteilen – Details zum Auf...
Kopplung "iPhone + Apple Watch" sowie Anbindung...
Leak aus macOS Sequoia: Apple bestätigt neuen M...
Apples interne Einschätzung: Zwei Jahre Rücksta...
iPhone 16 Pro
Apple zieht iPadOS 18.0 für das iPad Pro M4 zur...
Bewertung der gestrigen Neuvorstellungen: Umwer...