26
Aug 2022

Des Archivars Wunderwaffe: OCR – ob du willst oder nicht

Themen: Neues |

Ich habe euch ja nun wahrlich oft an meinem Langzeit-Projekt, mein Leben weitgehend zu digitalisieren, teilhaben lassen. Es ist auch prächtig gediehen: meine Sammlung an Film- und Fernsehaufnahmen ist ebenso in die Cloud umgezogen wie mein Bücherschrank, meine Comic-Sammlung und meine Akten, Verträge, Unterlagen. Musik und Fotos sowieso.

Selbst bei der Post ist der normale Ablauf längst: Vom Briefkasten in den Scanner ins Altpapier. Antworten und Ablage nur noch digital.

Es war/ist nicht immer ein leichter Weg. Der Overhead-Scanner von CZUR hat sich langfristig als Fehlkauf erwiesen. Wenn man damit wirklich schnell und komfortabel scannen will, sollte man eben doch die Bücher und Zeitschriften zerschneiden und blattweise auf die Scan-Matte legen. Tut man das, kann man sie aber auch gleich stapelweise in den Drucker mit Duplex-Scanner werfen, was deutlich weniger Handarbeit erfordert.

Tatsächlich stellte sich heraus, dass unser preiswerter Multifunktionslaserdrucker von Brother relativ klaglos hunderte von CINEMA-, TITANIC- und SPLATTING IMAGE-Ausgaben schluckte und in Bits & Bytes verwandelte.

Mittlerweile ist die Scan-Einheit aber am Ende ihres Lebenszyklus angelangt. Kein Wunder, die interne Software protokolliert mehr als 140.000 gescannte Seiten. Für solche Mengen war das Gerät nie ausgelegt. Es zeigen sich nun Streifen und andere Unreinheiten auf den Scans, die mich zwar nicht groß ärgern, die aber angesichts einer größeren CINEMA-Lieferung in den nächsten Tagen vermieden werden sollten.

Ein Nachfolger muss ins Haus.

Da mittlerweile ca. 90 Prozent dessen, was ich jemals gescannt besitzen wollte, gescannt ist, muss es auch diesmal kein Profi-Gerät sein, mit dem ich die Bibliothek von Alexandria zuverlässig scannen könnte. Die Vorgaben sind eher simpler Natur: ADF (also automatischer Einzug vom Stapel), doppelseitiger Scan in A4, idealerweise auch WLAN, damit ich die Dateien nicht über Kabel oder USB-Stick ans Macbook schicken muss.

Nach ein bisschen Suche habe ich mich für den hier entschieden:

Ein Epson Workforce Pro WF-4830DTWF. Man muss beim Kauf solcher Geräte übrigens unheimlich vorsichtig sein, weil die kryptischen Typenbezeichnungen die Eigenschaften repräsentieren und schon kleine Abweichungen große Wirkung haben. So hätte ich fast versehentlich den Epson Workforce Pro WF-4830DTW gekauft (also ohne das finale F), was ein für mich untaugliches Gerät ohne Doppelseiten-Scan gewesen wäre.

Jedem, der viel scannt, stellt sich irgendwann die Frage: OCR oder nicht?

OCR steht für “optical character recognition”, also die Texterkennung nach dem Scan. Ein Scanner scannt eine Seite ja erstmal als Grafik. Es braucht Software, um in dieser Grafik den Text zu identifizieren und durchsuchbar zu machen.

Das kann man brauchen – oder nicht.

Ich habe es bisher nicht gebraucht, weil meine Unterlagen gut sortiert sind und ich einzelne Zahlen und Daten auch händisch raus suchen kann. Meine Kontoauszüge und andere Akten sind nicht gescannt, sondern native PDF, die lassen sie ebenfalls durchsuchen. Vor allem aber: Microsoft OneDrive, wo ein großer Teil meines digitalen Vermächtnisses lagert, nutzt einen hauseigenen OCR-Algorithmus im Hintergrund, der alles so oder so durchsuchbar macht.

Was das bedeutet? Als ich gestern z.B. einen Modelvertrag suchte, warf OneDrive auch dieses Ergebnis von einem uralten Screenshot aus:

Man muss sich das mal auf der Zunge zergehen lassen: OneDrive hat erkannt, dass ein beliebiger Screenshot von mir das Wort “Modelvertrag” enthält und dieses suchbar gemacht. Wäre ich paranoid, wäre ich entsetzt. Ich bin begeistert.

Leider hat die OCR in der Cloud von Microsoft einen Haken: Sie wird nicht zur Datei gespeichert. Wenn ich eine Datei auf meine Festplatte lade, ist sie weg. Damit ist das kein eleganter Weg, die Arbeitslast auf Microsoft abzuwälzen.

Aber immerhin: OneDrive hat mir erlaubt, so ziemlich alles zu finden, was ich für meine Recherchen brauche – wenn nur die Suchfunktion der Cloud-Anwendung nicht so elend rudimentär und unflexibel wäre…

Nun hat sich aber in letzter Zeit mein Workflow geändert. Immer häufiger brauche ich Zitate und Absätze aus Büchern – als Text, nicht als Screenshot. Oder ich suche in meinem CINEMA-, bzw. meinem BRAVO-Archiv nach bestimmten Artikeln. Das ist händisch wirklich elend. OCR könnte dabei massiv helfen.

Nun könnten die ersten Leser fragen, warum ich nicht gleich mit OCR gescannt habe – mein Drucker bietet das in den Einstellungen sogar an. Das Problem: OCR verlängert den Scan-Prozess und erlaubt auch weniger Seiten pro Vorgang. Angesichts von Hunderten von Magazinen und Büchern ist es schlicht nicht effizient, das “on the go” zu machen. Wenn man will, kann man die Hefte ja immer hinterher noch stapelweise durch eine dafür prädestinierte Software jagen.

Und genau das mache ich mittlerweile.

Angefangen habe ich mit den Filmlexika, die ich in der nächsten Zeit ausschnittsweise vorstellen möchte. In den kommenden Wochen sind die CINEMA-Ausgaben dran. Bei der BRAVO muss ich erst schauen, ob die Qualität der Scans für OCR ausreicht. Das Heft wurde ja traditionell sehr unscharf gedruckt.

Will man eine Datei durch einen OCR-Algo schieben, muss man sich aber zuerst klar machen, was man am Ende als Ergebnis haben möchte.

Es gibt dabei zwei Schulen: Puristen bevorzugen es, den erkannten Text als unsichtbare Ebene hinter die gescannte Grafik zu legen, um den Scan in seiner Originalform zu behalten. Das ist besonders wichtig, wenn es sich um historische Bücher handelt oder um Akten und Zeugnisse. Die Dateien sind dann oft aber ziemlich groß. So umfasst das Horror-Lexikon, das ich neulich präsentiert habe, ungefähr 115 Megabyte. Das sind knapp 100 Megabyte für die 526 gescannten Seiten inklusive Cover und gut 10 Megabyte für den von der OCR-Software erkannten und hinterlegten Text.

Suche ich in der gescannten Ausgabe nach “Argento”, sieht das Ergebnis so aus:

Die Alternative: Den Scan komplett in reinen Text (als HTML, RTF oder TXT) wandeln lassen und die Originalseiten dann entsorgen. Für Recherche und Archive reicht das meist völlig aus und vor allem – es reduziert brutal die Dateigröße. Ich habe zum direkten Vergleich mal das Horror-Lexikon in RTF umwandeln lassen: 2,2 Megabyte. Aber das ist dann nicht mehr als “Buch” lesbar, weil alle Formatierung flöten geht. Wer eine perfektere Lösung sucht, die als Text auch das Layout der Vorlage nachahmt, muss auf einem erheblich professionelleren Level scannen (mindestens 600dpi) und die OCR besser trainieren. Dann kann, will und brauche ich nicht.

Also eine Hintergrund-Ebene mit OCR-Text zum Original-Scan.

Ich habe weder die Zeit noch die Lust, mich tagelang mit der Frage auseinander zu setzen, welche Software für diesen Zweck am Besten geeignet ist, zumal für mich nicht Perfektion zählt, sondern einfache Handhabung und Praktikabilität.

Wenn ich mich recht erinnere, habe ich drei verschiedene Software-Pakete für den Mac ausprobiert, von denen keines perfekt war: manchmal stürzte eine Software während des Scanvorgangs ab, dann wieder war der gescannte Texte praktisch unbrauchbar. Am Ende gab es einen klaren Sieger: OCRKit.

Mein Urteil bezieht sich dabei auf Geschwindigkeit, Simplizität, Stabilität und Ergebnis. Es mag sein, dass andere Software-Pakete noch mal ein paar Prozent präziser scannen oder die Vorlagen exakter nachbilden, aber für das, was ich brauche, ist OCRKit ideal und mit knapp 40 Euro absolut nicht überteuert.

Abstürze kommen vor, sind aber sehr selten – und für einen ganzen Jahrgang CINEMA braucht die Software keine halbe Stunde, ohne dass ich irgendwas machen muss. Damit finde ich dann jeden Bericht über die räudigen LISA-Filme…

Natürlich ist das alles kein perfektes System. Natürlich hätte ich vor 15 Jahren damit beginnen sollen, mir eine klare Strategie zurecht zu legen: Scans grundsätzlich in 600dpi, Farbe, und dann mit eingebundener OCR. Aber das konnte ich damals nicht wissen. Und wichtig ist für mich: auch mit allen Ecken und Kanten funktioniert mein digitales Archiv genau so, wie ich es brauche. Es gibt wenig, das weiter als eine Spotlight-Suche entfernt ist. Vom ersten Zeugnis bis zum aktuellen Kontoauszug, vom Bild der Oma bis zur BRAVO von 1957. Das zählt.

Habt ihr auch – positive wie negative – Scan-Erfahrungen gemacht? Wie steht ihr zu dem Thema? Oder ist bei euch immer noch “analog König”?

P.S.: Weil es sich als Tipp wirklich lohnt – SEJDA ist das ideale Portal, um PDF zu beschneiden, zu korrigieren, und zu sortieren. Die Menge, die man kostenlos verarbeiten darf, hat bei mir immer noch ausgereicht.



Abonnieren
Benachrichtige mich bei
guest

15 Kommentare
Älteste
Neueste
Inline Feedbacks
Alle Kommentare anzeigen
Nikolai
Nikolai
26. August, 2022 12:48

Tatsächlich möchte ich meine Unterlagen zu Hause auch digitalisieren, meine Frau wehrt sich allerdings etwas dagegen.
Alte Steuerbescheide(kommen mittlerweile nur noch digital), Schreiben der Versicherung(nicht digital möglich), Mietvertrag, Nebenkostenabrechnungen, Versicherungsunterlagen, Stammbücher und so weiter.
Einiges wird letztendlich ebenfalls analog vorhanden sein, wie das Stammbuch zum Beispiel.

Ich werde sehr von deiner Arbeit profitieren und danke dir für das Teilen deiner Erkenntnisse.

Martzell
1. September, 2022 13:24
Reply to  Torsten Dewi

Vorteil ist die Volltextsuche und dass man überall sein Archiv in der Cloud auf dem Handy dabei hat. Nachteil ist der Aufwand für das einsortieren der Scans. Auch war die Übersicht früher deutlich besser: Aktenschrank auf, Ordner raus, Register aufschlagen, alles chronologisch sortiert. Ich benenne meine Dateien gerne beginnend mit Jahr-Monat-Tag numerisch, damit bei der alphabetischen Standardsortierung, die Reihenfolge übersichtlicher ist.

Wenn man etwas sucht was die Volltextsuche nicht findet, ist durchblättern von Papier deutlich einfacher und geht schneller als Dateinamen zu lesen und Dateien öffnen (oder Quick Look auf dem Mac).

Wenn man wie wir überfordert ist und das Scannen, benennen und einsortieren schleifen lässt wird es unübersichtlich.

Auch ist es unübersichtlich wenn man wie wir nicht die Zeit hat alles bestehende einzuscannen und dann oft in zwei Archiven suchen muss: Erst mit Spotlight, dann in Papierordnern, dann wieder auf dem Computer, bis ich frustriert aufgab und die Bank bat mir erneut eine Steuerbescheinigung zukommen zu lassen, worauf ich erfahre dass die Bank das gar nicht automatisch macht, ich von dieser einen Volksbank ohne Digitalzugang also noch gar nichts erhalten habe.

Dirk
Dirk
26. August, 2022 13:02

Ich weiß ja nicht, wo und wie Du deine Scans ablegst, aber vielleicht ist ja Paperless NGX das richtige Tool für dich. https://github.com/paperless-ngx/paperless-ngx Ich hab nur darüber gelesen, noch nicht eingesetzt, finde es aber spannend. Ob Du es gebrauchen kannst, kannst du natürlich besser entscheiden als ich, wie gesagt, ich weiß nicht, wie und wo Du deine Daten organisierst.

el flojo
30. August, 2022 13:48
Reply to  Dirk

Kann Paperless NGX nur empfehlen. Mir gefällt vor allem, dass man seine Daten jederzeit wieder rauskriegt, da alle PDF wunderbar benannt (Hier gibt es sehr granulare Formatierungseinstellungen.) in Ordnern liegen. Läuft hier ohne zu murren in nem Docker-Container auf meinem NAS und schluckt alles, was ich reinwerfe.

ThomasB
4. September, 2022 22:44
Reply to  el flojo

Danke – schau ich mir definitiv an, klingt deutlich attraktiber als meine bisherige “Ablagestrategie” 🙂

Daniel
Daniel
22. September, 2022 10:48
Reply to  Dirk

Hab mich auch erst durch diesen Post hier mit papierlosem Büro und OCR auseinander gesetzt. Und jetzt, zwei Wochen und 500 gescanntr Dokumente später, läuft PaperlessNGX auf meinem NAS und der Druckertipp vom Wortvogel in meinem Schrank. Das war mal ein großartiger Anstoß von euch beiden. Die eine Hälfte der alte konnte ich aussortieren, die andere endlich mal wieder richtig sortieren. Und das Backup in die Cloud und sogar eine Cloud-Inbox für Google Drive lassen mich sehr beruhigt schlafen damit. Danke euch!

Alexander Freickmann
Alexander Freickmann
26. August, 2022 16:18

Oh, das hört sich mal nach einer guten Idee an! Bin da bei nem anderen Archivarprojekt beteiligt, wo wir auch Tonnen von Screenshots von Magazinen haben und die noch digitalisieren müssen. Jedwegiges Feedback ist willkommen. Werde mal OCRKit ausprobieren.

Alexander Freickmann
Alexander Freickmann
27. August, 2022 16:24

Ich hab mich mal bisschen umgeguckt, OCRKit ist ganz gut, weil es die PDFs lesbar macht. Allerdings ist die Texterkennung zumindest bei meinen Beispielen eher mau (zu niedrige Auflösung) und anpassen kann man da auch nicht viel. Natürlich artet das in Arbeit aus, aber schlechte Texterkennung ist noch schlimmer als manuelle Nachbesserung und Anpassung.
Was für mich ganz gut zu klappen scheint ist Nanonets, bei denen hat man anscheinend (naja, müsste halt ausgetestet werden) als Normalverbraucher quasi unendlich OCR Umwandlungen und man kann Kauderwelsch verhindern indem man Blöcke definiert. Mit nem ordentlich trainierten Model könnte man da wahrscheinlich noch einfacher was zaubern.

Zum Vergleich: Das habe ich jetzt mit OCR Kit für diesen Test von Indiana Jones 4 rausbekommen:

Fata of Atlantis

n den Riesenerfolg von In.diana Jones and the lastCrusade (Teil 3 der Indy-Saga)knüpft die Computerspiele Ab. teilung von Lucasfilm mit einem vierten Teil an. Das Be. sondere: Es handelt sich nicht um ein “Spiel zum Film”.

Eines schönen Tages kommt ein aufgeregter Besucher ins Barnett College, in dem Dr. Henry Jones seinen Pflichten als Dozent nachgeht. Der Fremde bittet ihn, eine ganz bestimme kleine Statuette, die sich im Besitz des Colleges be. finden soll, zu zeigen. Der gut.gesinnte Dr. Jones stöbert im gesamten Haus nach der Anti. quität, bis er sie schließlich fin. det und dem Interessiertenzeigt. Doch dieser zieht eineAutomatik, reiBt das guts Stückan sich und macht sich durchdas Fenster auf und davon. Al.lee, was Indy von dem Räuberzu fassen bekommt, ist dessenMantel. Der Inhalt der Taschenbeweist eine Verbindung zwi­schen der Statue und Sophia,einer Forscherin aus dem Be.kanntenkreis von Indy. Er reistsofort nach New York, wo dasrothaarige Fräulein höchst in.teressante Vorlesungen hält­über Atlantis.

Ein gefundenes Fressen für Indiana Jones: Die Suchenach dom sagenumwobenenAtlantis. Klar, daB sich alle Ar­chäologen um dieEntdeckung desmythischen Konti­nents reißen wür.den. Doch der vor­angegangeneDiebstahl hatte eine völlig an­dere Bewandtnis: Die Deut­schen, die ebenfalls auf derSuche nach dem Eiland sind,interessieren sich nicht für denkulturellen Aspekt. In Atlantiswar ein magisches Metall be­kannt, das Unmengen vonEnergie freisetzte; kein Ver.gleich zu irgendwelchen lä. cherlichen Atomspaltungen. Die Deutschen sind natürlich wie der Teufel hinter dem Zeug her (“Was man da für Bomben bauen könnte!”). Das will Indiana Jones verhindern und beginnt die abenteuerliche Gealten Freundin Sophia.

In Gestalt des peitschenschwingenden LucasfilmHelden bereist Ihr die ganze Welt: Amerika, Island, Mexiko, die Azoren, Frankreich, Algerien und Kreta; überall ist Jenes zu finden, Mit von der Partie ist die zweite Hauptperson (Sophia). An manchen knif. f ligen Stellen kann man zu de.ren Meisterung zwischen bei­den Helden geschickt hin- undherschalten. Immer wieder an.regend sind sich dabei erge.bende Dialoge. Nach dem Mot­to “was sich liebt, das necktsich”, quasseln sich beide re­gelrecht unter den Tisch.

Die Steuerung erinnert prin.zipieü an die anderer Lucasfilm. Spiele, am meisten natür. lieh an die Vorhut The Secref of Monkey Island 2. Während in den oberen zwei Dritteln des

Und das mit Nanonets:

Fate of Atlantis

n den Riesenerfolg von In diana Jones and the last Crusade ( Teil 3 der Indy – Saga ) knüpft die Computerspiele – Ab teilung von Lucasfilm mit ei nem vierten Teil an . Das Be sondere : Es handelt sich nicht um ein Spiel zum Film .

Eines schönen Tages kommt ein aufgeregter Besucher ins Barnett College , in dem Dr. Henry Jones seinen Pflichten als Dozent nachgeht . Der Fremde bittet ihn , eine ganz bestimme kleine Statuette , die sich im Besitz des Colleges be finden soll , zu zeigen . Der gut gesinnte Dr. Jones stöbert im gesamten Haus nach der Anti quität , bis er sie schließlich fin det und dem Interessierten zeigt . Doch dieser zieht eine Automatik , reißt das gute Stück an sich und macht sich durch das Fenster auf und davon . Al les , was Indy von dem Räuber zu fassen bekommt , ist dessen Mantel . Der Inhalt der Taschen beweist eine Verbindung zwi schen der Statue und Sophia , einer Forscherin aus dem Be kanntenkreis von Indy . Er reist sofort nach New York , wo das rothaarige Fräulein höchst in teressante Vorlesungen hält – über Atlantis .

Schaut Euch das Bild genau an – ist ein POWER – TIP drin Ein gefundenes Fressen für Indiana Jones : Die Suche nach dem sagenumwobenen Atlantis . Klar , daß sich alle Ar chäologen um die Entdeckung des mythischen Konti nents reißen wür den . Doch der vor angegangene Diebstahl hatte eine völlig an dere Bewandtnis : Die Deut schen , die ebenfalls auf der Suche nach dem Eiland sind , interessieren sich nicht für den kulturellen Aspekt . in Atlantis war ein magisches Metall be kannt , das Unmengen von Energie freisetzte ; kein Ver JUILL gleich zu irgendwelchen lä cherlichen . Atomspaltungen . Die Deutschen sind natürlich wie der Teufel hinter dem Zeug her ( Was man da für Bomben bauen könnte ! ) . Das will In diana Jones verhindern und beginnt die abenteuerliche Ge schichte zusammen mit seiner alten Freundin Sophia .

In Gestalt des peitschen schwingenden Lucasfilm Helden bereist Ihr die ganze Welt : Amerika , Island , Mexiko , die Azoren , Frankreich , Alge rien und Kreta ; überall ist Jones zu finden . Mit von der Partie ist die zweite Hauptper son ( Sophia ) . An manchen knif fligen Stellen kann man zu de ren Meisterung zwischen bei den Helden geschickt hin- und herschalten . Immer wieder an regend sind sich dabei erge bende Dialoge . Nach dem Mot to was sich liebt , das neckt sich , quasseln sich beide re gelrecht unter den Tisch .

Die Steuerung erinnert prin zipiell an die anderer Lucas film – Spiele , am meisten natür lich an die Vorhut The Secret of Monkey Island 2. Während in den oberen zwei Dritteln des

Last edited 1 Jahr zuvor by Alexander Freickmann
Teilzeitinvestor
29. August, 2022 14:54

Hast du bei deinem alten Brother mal die Scanleiste (der weisse schmale Streifen links neben dem Scanglas) mit Reinigungsalkohol gereinigt? Danach waren bei mir die Scanstreifen wieder weg

Martzell
1. September, 2022 13:09

Mein beidseitiger Scanner (Brother MFC-L9550cdw) produziert leider Scans auf denen der Text der Rückseite der Vorlage durchscheint. Ansonsten schätze ich sehr dass die OCR-Scans direkt in meinem Cloudspeicher (Dropbox) landen und damit auch direkt auf meinem Computer. Farblaser scheint mir auch deutlich besser zu sein als Tintenstrahler, weil außer Papier nachlegen keine Wartung nötig und sehr günstig (die höchsten Verbrauchskosten verursacht wohl das Papier, günstiger refurbished Toner reicht 8000 Seiten weit). Kostet leider neu doppelt soviel wie der hier vorgestellte Epson Tintenstrahler. Ich habe deshalb einen gebrauchten gekauft. Das war aufreibend, weil die Verkäufer nicht in der Lage oder gewillt sind den Zustand der Verbrauchsmaterialien auszulesen.

Last edited 1 Jahr zuvor by Martzell
Daniel
Daniel
16. September, 2022 23:05

Danke für den Hinweis auf den Drucker! Ist gestern nach etwas Hin und Her mit zwei Shops für 200 Euro und 200 Milliliter Wutschweiß bei mir angekommen. Hab heute den halben Tag in seine Einrichtung und die von Paperless gesteckt (viel Gefuckel auf dem NAS), um jetzt eine Lösung zu haben, die wichtige Sachen auch in Google One ABLEGT (weniger Gefuckel, aber auch keine schöne OCR Suchfunktion).

Ein super Tipp, danke dir!

Zur Druckqulität kann ich allerdings nach den zwei Testseiten bisher noch nichts sagen…