Des Archivars Wunderwaffe: OCR – ob du willst oder nicht
Themen: Neues |Ich habe euch ja nun wahrlich oft an meinem Langzeit-Projekt, mein Leben weitgehend zu digitalisieren, teilhaben lassen. Es ist auch prächtig gediehen: meine Sammlung an Film- und Fernsehaufnahmen ist ebenso in die Cloud umgezogen wie mein Bücherschrank, meine Comic-Sammlung und meine Akten, Verträge, Unterlagen. Musik und Fotos sowieso.
Selbst bei der Post ist der normale Ablauf längst: Vom Briefkasten in den Scanner ins Altpapier. Antworten und Ablage nur noch digital.
Es war/ist nicht immer ein leichter Weg. Der Overhead-Scanner von CZUR hat sich langfristig als Fehlkauf erwiesen. Wenn man damit wirklich schnell und komfortabel scannen will, sollte man eben doch die Bücher und Zeitschriften zerschneiden und blattweise auf die Scan-Matte legen. Tut man das, kann man sie aber auch gleich stapelweise in den Drucker mit Duplex-Scanner werfen, was deutlich weniger Handarbeit erfordert.
Tatsächlich stellte sich heraus, dass unser preiswerter Multifunktionslaserdrucker von Brother relativ klaglos hunderte von CINEMA-, TITANIC- und SPLATTING IMAGE-Ausgaben schluckte und in Bits & Bytes verwandelte.
Mittlerweile ist die Scan-Einheit aber am Ende ihres Lebenszyklus angelangt. Kein Wunder, die interne Software protokolliert mehr als 140.000 gescannte Seiten. Für solche Mengen war das Gerät nie ausgelegt. Es zeigen sich nun Streifen und andere Unreinheiten auf den Scans, die mich zwar nicht groß ärgern, die aber angesichts einer größeren CINEMA-Lieferung in den nächsten Tagen vermieden werden sollten.
Ein Nachfolger muss ins Haus.
Da mittlerweile ca. 90 Prozent dessen, was ich jemals gescannt besitzen wollte, gescannt ist, muss es auch diesmal kein Profi-Gerät sein, mit dem ich die Bibliothek von Alexandria zuverlässig scannen könnte. Die Vorgaben sind eher simpler Natur: ADF (also automatischer Einzug vom Stapel), doppelseitiger Scan in A4, idealerweise auch WLAN, damit ich die Dateien nicht über Kabel oder USB-Stick ans Macbook schicken muss.
Nach ein bisschen Suche habe ich mich für den hier entschieden:
Ein Epson Workforce Pro WF-4830DTWF. Man muss beim Kauf solcher Geräte übrigens unheimlich vorsichtig sein, weil die kryptischen Typenbezeichnungen die Eigenschaften repräsentieren und schon kleine Abweichungen große Wirkung haben. So hätte ich fast versehentlich den Epson Workforce Pro WF-4830DTW gekauft (also ohne das finale F), was ein für mich untaugliches Gerät ohne Doppelseiten-Scan gewesen wäre.
Jedem, der viel scannt, stellt sich irgendwann die Frage: OCR oder nicht?
OCR steht für "optical character recognition", also die Texterkennung nach dem Scan. Ein Scanner scannt eine Seite ja erstmal als Grafik. Es braucht Software, um in dieser Grafik den Text zu identifizieren und durchsuchbar zu machen.
Das kann man brauchen – oder nicht.
Ich habe es bisher nicht gebraucht, weil meine Unterlagen gut sortiert sind und ich einzelne Zahlen und Daten auch händisch raus suchen kann. Meine Kontoauszüge und andere Akten sind nicht gescannt, sondern native PDF, die lassen sie ebenfalls durchsuchen. Vor allem aber: Microsoft OneDrive, wo ein großer Teil meines digitalen Vermächtnisses lagert, nutzt einen hauseigenen OCR-Algorithmus im Hintergrund, der alles so oder so durchsuchbar macht.
Was das bedeutet? Als ich gestern z.B. einen Modelvertrag suchte, warf OneDrive auch dieses Ergebnis von einem uralten Screenshot aus:
Man muss sich das mal auf der Zunge zergehen lassen: OneDrive hat erkannt, dass ein beliebiger Screenshot von mir das Wort "Modelvertrag" enthält und dieses suchbar gemacht. Wäre ich paranoid, wäre ich entsetzt. Ich bin begeistert.
Leider hat die OCR in der Cloud von Microsoft einen Haken: Sie wird nicht zur Datei gespeichert. Wenn ich eine Datei auf meine Festplatte lade, ist sie weg. Damit ist das kein eleganter Weg, die Arbeitslast auf Microsoft abzuwälzen.
Aber immerhin: OneDrive hat mir erlaubt, so ziemlich alles zu finden, was ich für meine Recherchen brauche – wenn nur die Suchfunktion der Cloud-Anwendung nicht so elend rudimentär und unflexibel wäre…
Nun hat sich aber in letzter Zeit mein Workflow geändert. Immer häufiger brauche ich Zitate und Absätze aus Büchern – als Text, nicht als Screenshot. Oder ich suche in meinem CINEMA-, bzw. meinem BRAVO-Archiv nach bestimmten Artikeln. Das ist händisch wirklich elend. OCR könnte dabei massiv helfen.
Nun könnten die ersten Leser fragen, warum ich nicht gleich mit OCR gescannt habe – mein Drucker bietet das in den Einstellungen sogar an. Das Problem: OCR verlängert den Scan-Prozess und erlaubt auch weniger Seiten pro Vorgang. Angesichts von Hunderten von Magazinen und Büchern ist es schlicht nicht effizient, das "on the go" zu machen. Wenn man will, kann man die Hefte ja immer hinterher noch stapelweise durch eine dafür prädestinierte Software jagen.
Und genau das mache ich mittlerweile.
Angefangen habe ich mit den Filmlexika, die ich in der nächsten Zeit ausschnittsweise vorstellen möchte. In den kommenden Wochen sind die CINEMA-Ausgaben dran. Bei der BRAVO muss ich erst schauen, ob die Qualität der Scans für OCR ausreicht. Das Heft wurde ja traditionell sehr unscharf gedruckt.
Will man eine Datei durch einen OCR-Algo schieben, muss man sich aber zuerst klar machen, was man am Ende als Ergebnis haben möchte.
Es gibt dabei zwei Schulen: Puristen bevorzugen es, den erkannten Text als unsichtbare Ebene hinter die gescannte Grafik zu legen, um den Scan in seiner Originalform zu behalten. Das ist besonders wichtig, wenn es sich um historische Bücher handelt oder um Akten und Zeugnisse. Die Dateien sind dann oft aber ziemlich groß. So umfasst das Horror-Lexikon, das ich neulich präsentiert habe, ungefähr 115 Megabyte. Das sind knapp 100 Megabyte für die 526 gescannten Seiten inklusive Cover und gut 10 Megabyte für den von der OCR-Software erkannten und hinterlegten Text.
Suche ich in der gescannten Ausgabe nach "Argento", sieht das Ergebnis so aus:
Die Alternative: Den Scan komplett in reinen Text (als HTML, RTF oder TXT) wandeln lassen und die Originalseiten dann entsorgen. Für Recherche und Archive reicht das meist völlig aus und vor allem – es reduziert brutal die Dateigröße. Ich habe zum direkten Vergleich mal das Horror-Lexikon in RTF umwandeln lassen: 2,2 Megabyte. Aber das ist dann nicht mehr als "Buch" lesbar, weil alle Formatierung flöten geht. Wer eine perfektere Lösung sucht, die als Text auch das Layout der Vorlage nachahmt, muss auf einem erheblich professionelleren Level scannen (mindestens 600dpi) und die OCR besser trainieren. Dann kann, will und brauche ich nicht.
Also eine Hintergrund-Ebene mit OCR-Text zum Original-Scan.
Ich habe weder die Zeit noch die Lust, mich tagelang mit der Frage auseinander zu setzen, welche Software für diesen Zweck am Besten geeignet ist, zumal für mich nicht Perfektion zählt, sondern einfache Handhabung und Praktikabilität.
Wenn ich mich recht erinnere, habe ich drei verschiedene Software-Pakete für den Mac ausprobiert, von denen keines perfekt war: manchmal stürzte eine Software während des Scanvorgangs ab, dann wieder war der gescannte Texte praktisch unbrauchbar. Am Ende gab es einen klaren Sieger: OCRKit.
Mein Urteil bezieht sich dabei auf Geschwindigkeit, Simplizität, Stabilität und Ergebnis. Es mag sein, dass andere Software-Pakete noch mal ein paar Prozent präziser scannen oder die Vorlagen exakter nachbilden, aber für das, was ich brauche, ist OCRKit ideal und mit knapp 40 Euro absolut nicht überteuert.
Abstürze kommen vor, sind aber sehr selten – und für einen ganzen Jahrgang CINEMA braucht die Software keine halbe Stunde, ohne dass ich irgendwas machen muss. Damit finde ich dann jeden Bericht über die räudigen LISA-Filme…
Natürlich ist das alles kein perfektes System. Natürlich hätte ich vor 15 Jahren damit beginnen sollen, mir eine klare Strategie zurecht zu legen: Scans grundsätzlich in 600dpi, Farbe, und dann mit eingebundener OCR. Aber das konnte ich damals nicht wissen. Und wichtig ist für mich: auch mit allen Ecken und Kanten funktioniert mein digitales Archiv genau so, wie ich es brauche. Es gibt wenig, das weiter als eine Spotlight-Suche entfernt ist. Vom ersten Zeugnis bis zum aktuellen Kontoauszug, vom Bild der Oma bis zur BRAVO von 1957. Das zählt.
Habt ihr auch – positive wie negative – Scan-Erfahrungen gemacht? Wie steht ihr zu dem Thema? Oder ist bei euch immer noch "analog König"?
P.S.: Weil es sich als Tipp wirklich lohnt – SEJDA ist das ideale Portal, um PDF zu beschneiden, zu korrigieren, und zu sortieren. Die Menge, die man kostenlos verarbeiten darf, hat bei mir immer noch ausgereicht.
Tatsächlich möchte ich meine Unterlagen zu Hause auch digitalisieren, meine Frau wehrt sich allerdings etwas dagegen.
Alte Steuerbescheide(kommen mittlerweile nur noch digital), Schreiben der Versicherung(nicht digital möglich), Mietvertrag, Nebenkostenabrechnungen, Versicherungsunterlagen, Stammbücher und so weiter.
Einiges wird letztendlich ebenfalls analog vorhanden sein, wie das Stammbuch zum Beispiel.
Ich werde sehr von deiner Arbeit profitieren und danke dir für das Teilen deiner Erkenntnisse.
Ich habe ebenfalls noch EINEN Aktenordner – Kaufverträge, Zeugnisse, Urkunden, Versicherungspolicen. Da kann der Scan (den ich natürlich gemacht habe) das Original nicht ersetzen. Sollte man so halten. Darüber hinaus macht der WLAN-Zugang des Druckers einen großen Komfort-Unterschied (angebunden an mein GDrive-Konto) – zum Scan der täglichen Post muss ich nicht mal mehr an den Rechner. Die Post liegt dann in meinem GDrive, wann immer ich sie brauche, nach Einlaufdatum sortiert. Was du deiner Frau sagen kannst: ich verstehe die Bedenken. Hatte meine auch. Aber wenn man einmal die Vorteile kennen gelernt hat, will man nicht mehr davon lassen.
Vorteil ist die Volltextsuche und dass man überall sein Archiv in der Cloud auf dem Handy dabei hat. Nachteil ist der Aufwand für das einsortieren der Scans. Auch war die Übersicht früher deutlich besser: Aktenschrank auf, Ordner raus, Register aufschlagen, alles chronologisch sortiert. Ich benenne meine Dateien gerne beginnend mit Jahr-Monat-Tag numerisch, damit bei der alphabetischen Standardsortierung, die Reihenfolge übersichtlicher ist.
Wenn man etwas sucht was die Volltextsuche nicht findet, ist durchblättern von Papier deutlich einfacher und geht schneller als Dateinamen zu lesen und Dateien öffnen (oder Quick Look auf dem Mac).
Wenn man wie wir überfordert ist und das Scannen, benennen und einsortieren schleifen lässt wird es unübersichtlich.
Auch ist es unübersichtlich wenn man wie wir nicht die Zeit hat alles bestehende einzuscannen und dann oft in zwei Archiven suchen muss: Erst mit Spotlight, dann in Papierordnern, dann wieder auf dem Computer, bis ich frustriert aufgab und die Bank bat mir erneut eine Steuerbescheinigung zukommen zu lassen, worauf ich erfahre dass die Bank das gar nicht automatisch macht, ich von dieser einen Volksbank ohne Digitalzugang also noch gar nichts erhalten habe.
Ich weiß ja nicht, wo und wie Du deine Scans ablegst, aber vielleicht ist ja Paperless NGX das richtige Tool für dich. https://github.com/paperless-ngx/paperless-ngx Ich hab nur darüber gelesen, noch nicht eingesetzt, finde es aber spannend. Ob Du es gebrauchen kannst, kannst du natürlich besser entscheiden als ich, wie gesagt, ich weiß nicht, wie und wo Du deine Daten organisierst.
Darüber habe ich auch schon länger nachgedacht – lohnt sich das für mich? Letztlich glaube ich das nicht. Meine digitalen Akten und Bücher sind nach einer klaren Struktur in meiner Cloud abgelegt, ein spezifisches System zur Ordnung und Verwaltung brauche ich dem gar nicht mehr überstülpen. Aber wenn ich heute alles noch mal neu anfangen würde, dann würde ich darüber auf jeden Fall nachdenken.
Kann Paperless NGX nur empfehlen. Mir gefällt vor allem, dass man seine Daten jederzeit wieder rauskriegt, da alle PDF wunderbar benannt (Hier gibt es sehr granulare Formatierungseinstellungen.) in Ordnern liegen. Läuft hier ohne zu murren in nem Docker-Container auf meinem NAS und schluckt alles, was ich reinwerfe.
Danke – schau ich mir definitiv an, klingt deutlich attraktiber als meine bisherige "Ablagestrategie" 🙂
Hab mich auch erst durch diesen Post hier mit papierlosem Büro und OCR auseinander gesetzt. Und jetzt, zwei Wochen und 500 gescanntr Dokumente später, läuft PaperlessNGX auf meinem NAS und der Druckertipp vom Wortvogel in meinem Schrank. Das war mal ein großartiger Anstoß von euch beiden. Die eine Hälfte der alte konnte ich aussortieren, die andere endlich mal wieder richtig sortieren. Und das Backup in die Cloud und sogar eine Cloud-Inbox für Google Drive lassen mich sehr beruhigt schlafen damit. Danke euch!
Vielen Dank, das freut mich sehr!
Oh, das hört sich mal nach einer guten Idee an! Bin da bei nem anderen Archivarprojekt beteiligt, wo wir auch Tonnen von Screenshots von Magazinen haben und die noch digitalisieren müssen. Jedwegiges Feedback ist willkommen. Werde mal OCRKit ausprobieren.
Ich hab mich mal bisschen umgeguckt, OCRKit ist ganz gut, weil es die PDFs lesbar macht. Allerdings ist die Texterkennung zumindest bei meinen Beispielen eher mau (zu niedrige Auflösung) und anpassen kann man da auch nicht viel. Natürlich artet das in Arbeit aus, aber schlechte Texterkennung ist noch schlimmer als manuelle Nachbesserung und Anpassung.
Was für mich ganz gut zu klappen scheint ist Nanonets, bei denen hat man anscheinend (naja, müsste halt ausgetestet werden) als Normalverbraucher quasi unendlich OCR Umwandlungen und man kann Kauderwelsch verhindern indem man Blöcke definiert. Mit nem ordentlich trainierten Model könnte man da wahrscheinlich noch einfacher was zaubern.
Zum Vergleich: Das habe ich jetzt mit OCR Kit für diesen Test von Indiana Jones 4 rausbekommen:
Und das mit Nanonets:
Sehr spannend, danke!
Hast du bei deinem alten Brother mal die Scanleiste (der weisse schmale Streifen links neben dem Scanglas) mit Reinigungsalkohol gereinigt? Danach waren bei mir die Scanstreifen wieder weg
Mein beidseitiger Scanner (Brother MFC-L9550cdw) produziert leider Scans auf denen der Text der Rückseite der Vorlage durchscheint. Ansonsten schätze ich sehr dass die OCR-Scans direkt in meinem Cloudspeicher (Dropbox) landen und damit auch direkt auf meinem Computer. Farblaser scheint mir auch deutlich besser zu sein als Tintenstrahler, weil außer Papier nachlegen keine Wartung nötig und sehr günstig (die höchsten Verbrauchskosten verursacht wohl das Papier, günstiger refurbished Toner reicht 8000 Seiten weit). Kostet leider neu doppelt soviel wie der hier vorgestellte Epson Tintenstrahler. Ich habe deshalb einen gebrauchten gekauft. Das war aufreibend, weil die Verkäufer nicht in der Lage oder gewillt sind den Zustand der Verbrauchsmaterialien auszulesen.
Danke für den Hinweis auf den Drucker! Ist gestern nach etwas Hin und Her mit zwei Shops für 200 Euro und 200 Milliliter Wutschweiß bei mir angekommen. Hab heute den halben Tag in seine Einrichtung und die von Paperless gesteckt (viel Gefuckel auf dem NAS), um jetzt eine Lösung zu haben, die wichtige Sachen auch in Google One ABLEGT (weniger Gefuckel, aber auch keine schöne OCR Suchfunktion).
Ein super Tipp, danke dir!
Zur Druckqulität kann ich allerdings nach den zwei Testseiten bisher noch nichts sagen…