Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>Zuverlässige OCR für ca. 8-10pt Serif-Schrift, Layout-Funktion sekundär

Zuverlässige OCR für ca. 8-10pt Serif-Schrift, Layout-Funktion sekundär

Rosember27.11.2214:24
Liebe Foristas,
für ein Projekt möchte ich den Text eines alten Taschenbuchs erfassen und in einer Textverarbeitung bearbeite. Die Schriftgröße dürfte irgendwo zwischen 8 und 10 pt liegen. Der Text ist in einer Serifenschrift gesetzt, was, nach meiner Erfahrung, die OCR eher behindert. Die Rechte sind gesichert!
Nach meiner (bescheidenen) Erfahrung sollte die Auflösung eigentlich fast jeden brauchbaren Scanners ausreichen, um als Grundlage für die Texterfassung zu dienen. Wichtig ist mir vor allem die Zuverlässigkeit der OCR. Es genügt mir auch, wenn die Seiten einzeln erfasst werden, solange ich sie in einem Format vorliegen habe, dass die Bearbeitung in einer Textverarbeitung erlaubt. Auch die Wiedergabe/Erfassung des Layouts spielt daher keine Rolle, genauso wie die Geschwindigkeit sekundär ist (das Projekt wird ohnehin viel Handarbeit).
Frage: Einen Scanner habe ich, aber welche OCR-Software würdet Ihr empfehlen? Der Preis ist dabei (in Grenzen) sekundär. Wichtig ist mir nur eine präzise Erfassung der Schrift.
Alternativ: Gibt es Anbieter von entsprechenden Services, die ihr kennt und empfehlen könnt?
Besten Dank für Eure Tipps!

Mein System ist ein MBP M1pro unter Ventura. Ich hätte aber auch noch einen iMac unter Big Sur, den ich ebenfalls verwenden könnte.
0

Kommentare

silversurfer2227.11.2216:17
vielleicht funktioniert es mit Scanner mini (kostenlos) mit einem iPhone ?
da ist die Texterkennung auch schon integriert
0
Rosember27.11.2216:43
silversurfer22
vielleicht funktioniert es mit Scanner mini (kostenlos) mit einem iPhone ?
da ist die Texterkennung auch schon integriert
Danke, gute Idee. Ich glaube, ich habe viel zu altbacken gedacht. Ich werde mal sehen, was iPhone und iPad so leisten.
0
NGA
NGA27.11.2217:42
Ich denke Du kommst um’s Testen nicht drumherum.

Ich selber verwende verschiedene Software die auch OCR/Texterkennung anbieten, sowohl unter macOS als auch unter iOS …

- Scanner Pro (iOS)
- Live Text (iOS 15 eigene Texterkennung)
- Adobe Acrobat (macOS)
- TextSniper (macOS)

Ein relativ umfangreicher Artikel gibt einen guten Einblick →
+1
Rosember27.11.2218:08
Funktioniert hervorragend! Mit der in iOS eingebauten Texterkennung sogar noch besser als mit meiner Scanner Pro-App.

Besten Dank nochmals an silversurfer22!
+2
Rosember27.11.2218:15
NGA
Ich denke Du kommst um’s Testen nicht drumherum.

Ich selber verwende verschiedene Software die auch OCR/Texterkennung anbieten, sowohl unter macOS als auch unter iOS …

- Scanner Pro (iOS)
- Live Text (iOS 15 eigene Texterkennung)
- Adobe Acrobat (macOS)
- TextSniper (macOS)

Ein relativ umfangreicher Artikel gibt einen guten Einblick →
Danke für die Hinweise, NGA!
Tatsächlich scheinen es die Bordmittel des iPad pro für mich aber zu tun (das Layout ist mir wie gesagt egal, weil es ohnehin neu erstellt werden muss). Bisher habe ich so gut wie keinen Fehler bei der Umsetzung in Text bemerkt - und die wenigen haben vor allem mit der Qualität des Fotos zu tun. Da muss ich vielleicht noch basteln und mir eine anständige Halterung für das Buch schaffen. Oder ich gehe doch auf den Flachbett-Scanner und arbeite mit den Scans. Die Texterkennung funktioniert ja auch mit Dateien!
+2
NGA
NGA28.11.2217:53
Rosember
NGA
Ich denke Du kommst um’s Testen nicht drumherum.

Ich selber verwende verschiedene Software die auch OCR/Texterkennung anbieten, sowohl unter macOS als auch unter iOS …

- Scanner Pro (iOS)
- Live Text (iOS 15 eigene Texterkennung)
- Adobe Acrobat (macOS)
- TextSniper (macOS)

Ein relativ umfangreicher Artikel gibt einen guten Einblick →
Danke für die Hinweise, NGA!
Tatsächlich scheinen es die Bordmittel des iPad pro für mich aber zu tun (das Layout ist mir wie gesagt egal, weil es ohnehin neu erstellt werden muss). Bisher habe ich so gut wie keinen Fehler bei der Umsetzung in Text bemerkt - und die wenigen haben vor allem mit der Qualität des Fotos zu tun. Da muss ich vielleicht noch basteln und mir eine anständige Halterung für das Buch schaffen. Oder ich gehe doch auf den Flachbett-Scanner und arbeite mit den Scans. Die Texterkennung funktioniert ja auch mit Dateien!
Was die mögliche Halterung + Extras an geht:
- ULANZI Tablet Stativ Halterung
- VIJIM LS11 Tischstativ
- Bluetooth Kamera Fernbedienung
+1
Rosember28.11.2219:37
Super, danke! Schaue ich mir an.
0
Weia
Weia28.11.2222:21
Rosember
silversurfer22
vielleicht funktioniert es mit Scanner mini (kostenlos) mit einem iPhone ?
da ist die Texterkennung auch schon integriert
Danke, gute Idee. Ich glaube, ich habe viel zu altbacken gedacht. Ich werde mal sehen, was iPhone und iPad so leisten.
Ich dachte, in Ventura ist dieselbe Texterkennung jetzt auch in macOS vorhanden? (Nur gelesen; ich selbst habe kein Ventura.)
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
0
Rosember28.11.2223:06
Weia
Rosember
silversurfer22
vielleicht funktioniert es mit Scanner mini (kostenlos) mit einem iPhone ?
da ist die Texterkennung auch schon integriert
Danke, gute Idee. Ich glaube, ich habe viel zu altbacken gedacht. Ich werde mal sehen, was iPhone und iPad so leisten.
Ich dachte, in Ventura ist dieselbe Texterkennung jetzt auch in macOS vorhanden? (Nur gelesen; ich selbst habe kein Ventura.)
Doch, kann Ventura. Allerdings muss ich – vermutlich wegen Lage meiner Mediathek auf einem NAS - den Rechner ab jedem zweiten Versuch, Fotos zu öffnen, neu starten, was Fotos derzeit in der Nutzung für mich sehr einschränkt ( ). Außerdem haben iPhone/iPad gleich eine Kamera in sinnvoller Auflösung dabei. Und - faszinierend praktischer Zug der Texterkennung bei Apple: Man muss gar kein Foto aufnehmen, um die Schrifterkennung nutzen zu können. Wenn man auf das entsprechende Symbol drückt, wird der erkannte Text auch ohne abgespeicherte Aufnahme erkannt und kann weiter verarbeitet werden. (Ob dieses Feature auch unter Ventura funktioniert, weiß ich nicht, da ich mit den in die Macs integrierten Kameras erst gar nicht versuchen will, brauchbare Fotos zu erhalten.)
+2
Rosember02.12.2220:07
Ich will nur kurz über meine Erfahrungen mit der Schrifterkennung in Apple Fotos für das digitalisieren eines kompletten Buchs berichten. Da die Digitalisierung einen kommerziellen Hintergrund hat, darf ich den Titel des Buches leider nicht nennen, was der Schilderung allerdings keinen Abbruch tun sollte.
Auf silversurfer22s Hinweis habe ich mein Glück zunächst mit iPad und iPhone versucht, was anfangs beides gleichermaßen schnell und zufriedenstellend funktionierte. Angesichts des Umfangs der Digitalisierung erwies sich das Offenhalten der gewünschten Buchseite samt Betätigung des Auslösers jedoch als zu fummelig – es ging um ein Taschenbuch, dass auch nach heftigem Gebrauch nicht ohne weitere Maßnahmen an der gewünschten Stelle geöffnet blieb. Ich habe deshalb die verbleibenden Seiten mit einem üblichen Flachbettscanner in noch nicht einmal besonders hoher Auflösung (200 dpi) als jpg-Dateien eingescannt und nach Fotos auf meinem Mac übertragen.
Anschließend erwies sich die Arbeit als nahezu mühelos: Unten rechts in den jpgs erscheint in der Einzelbildanzeige das Symbol für erkannte Schrift. Ein Klick hebt den erkannten Text auf dem Bild hervor, der ausnahmslos vollständig war, wenn man von "–, [, ], ..., )" und ähnlichen Zeichen absieht, die am Zeilenende von derartigen Schrifterkennungsprogrammen notorisch "übersehen" bzw. durch die Software selbst negiert werden.
Zum Glück sind derartige Zeichen am Zeilenende eher die Ausnahme, der Korrekturaufwand hielt sich daher in Grenzen. Anders sieht es bei Zeilenumbrüchen aus. Diese werden zwischen normalen Absätzen problemlos erkannt. Bei Gedichten jedoch, wie im vorliegenden Fall gehäuft der Fall, wirkt die Erkennung oft willkürlich und von der Länge der Zeilen abhängig. So kam es immer wieder vor, dass einzelne Zeilenfolgen korrekt erkannt wurden, andere des selben Gedichts jedoch hintereinander gesetzt wurden, ohne die Zeilenumbrüche zu berücksichtigen. Entsprechend war hierbei Handarbeit notwendig, die allerdings leicht und schnell erledigt werden konnte.
Kein Problem hingegen stellten Doppelseiten dar, die textlich problemlos in der richtigen Reihenfolge erkannt und angeordnet wurden, selbst wenn die Doppelseite in ihrer Gesamtheit eingelesen wurde. Ich vermute, dass das auch für Spaltentexte gelten wird, habe das aber nicht überprüft.
Fazit: Abhängig von der Vorlage scheint die Digitalisierung mit iPad/iPhone/Fotos hervorragend zu funktionieren. Dabei ist jedoch zu beachten, dass die Vorlage in meinem Fall keine besonderen Herausforderungen (wie z.B. mehrspaltigen Satz, Formeln u.ä.) bot. Der Zeitaufwand (ohne Korrekturlesen) betrug ungefähr einen langen Arbeitstag für 200 Taschenbuchseiten – wobei hier die Korrektur der Zeilenumbrüche in den Gedichten schon berücksichtigt ist. Nach Beginn der Durchsicht kann ich jetzt schon sagen, dass bei einer normalen Druckvorlage nur vereinzelte Zeichen fehlerhaft erkannt wurden (notorisch: "c" statt "e", "l" statt "J"). Die Häufigkeit würde ich mit ungefähr ein Fehler pro Buch-Doppelseite angeben. Das dürfte allerdings stark abhängig vo der Qualität der Scans/jpgs der Buchseiten und der verwendeten Schriftart des Buches abhängen. Insgesamt halte ich den Aufwand, einfach gesetzte Bücher auf diese Weise in die digitale Zeit zu übertragen für sehr vertret- und überschaubar.
Zum Spass habe ich auch einmal eine Seite in Frakturschrift (alte Bücher) zu lesen versucht. Das Ergebnis war unterhaltsam, aber nicht benutzbar. – Falls jemand hierfür geeignete Software kennt, wäre ich sehr daran interessiert!

Persönlich bin ich sehr beeindruckt, was Apple hier schon mit Bordmitteln ermöglicht!
+6

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.