11
Jul 2018

Mühsam ernährt sich das Scanhörnchen: Von Printer-Parametern und lästigen Lernkurven

Themen: Neues |

Am Ende dieses Beitrags gibt es einen Hilferuf – wenn euch das Thema Digitalisierung nicht schert, ihr aber vielleicht programmiertechnisch etwas bewandert seid, würde ich euch bitten, direkt nach unten zu scrollen. Siehe auch NACHTRAG!

Vorab: Trotz dessen, was ihr hier gleich lesen werdet, geht es prinzipiell gut voran. Die Entscheidung, die wichtigsten Bücher und Magazine aus meinem Bestand zu scannen, erzwingt eine Entscheidung, was denn diese wichtigsten Bücher und Magazine überhaupt sind. Das alleine treibt die Entschlackung massiv voran. Zuerst einmal habe ich Bücher gescannt, die ich seit Jahren wieder und wieder lese, die es aber digital nicht zu kaufen gibt. Die Zeitschriften werden ein großer Bereich sein, insgesamt mindestens fünf Regalmeter. Nichtsdestotrotz oder gerade deswegen ist es ein Projekt, das mich vermutlich noch das ganze Jahr beschäftigen wird.

Ich habe jetzt geschätzte 20 Stunden in das Projekt Digitaler Bücherschrank (fürderhin PDB) investiert. Die Hälfte ging dafür drauf, bereits existierende digitale Versionen meiner Bücher, Zeitschriften und Comics zu lokalisieren. Die andere Hälfte habe ich am Scanner gestanden und die Maschine mit Papier gefüttert. 12 Jahrgänge Cinema (von 1978 bis 1989) sind meine Versuchskaninchen – auch deshalb, weil etwaige Verluste hier nicht gar so schmerzen.

Aber wahrlich, es ist kein Vergnügen.

Ich habe nicht wirklich viel geschafft in den zehn Stunden – nur viel Lehrgeld gezahlt. Jeder Scanner/Kopierer ist sein eigenes Biest und in dem Wust von Parametern muss man erstmal die richtigen finden. Manche Dinge, die gehen SOLLTEN, gehen gar nicht, mitunter muss man das Gerät regelrecht überlisten, um einen Workflow zu schaffen, der zumindest theoretisch die Digitalisierung nicht zur Sisyphos-Aufgabe macht.

Hätte ich nicht die Möglichkeit, an einem fetten Xerox WorkCentre 7830 zu arbeiten, hätte ich vermutlich schon hingeschmissen. Das 7830 kann sogar A3-Bögen einziehen und beidseitig in Sekundenschnelle scannen. Damit ist es theoretisch möglich, eine komplette Cinema-Ausgabe mit 130 Seiten in gut drei Minuten zu digitalisieren. Aber selbst mit einem so professionellen Gerät ist der Ablauf “Papier rein – Scans raus” niemals perfekt. Es geht immer was schief, man muss immer daneben stehen, der Tag besteht aus Flickschusterei.

Hier mal ein paar der Stolpersteine, an die man sich erst gewöhnen muss.

Mangelndes Entgräten: Man kann leimgebundene Zeitschriften und Bücher mit dem Papierschneider um die Bindung erleichtern und erhält einen Stapel A4-Einzelblätter, eigentlich perfekt für den Scannereinzug. Leider braucht es nur einen winzigen Rest Leim, um zwei Seiten aneinander zu kleben und einen hässlichen Papierstau zu verursachen. Danach bietet der Scanner nur “Abbruch” und “Wiederaufnahme” an – letzter Punkt bedingt, alle Seiten noch einmal einzulegen. Die vernünftige Option, das bis zum Stau gescannte Material zu speichern und nur die verbleibenden Seiten erneut anzulegen, existiert nicht.

Mangelnde Sorgfalt: Um die Klebeprobleme mit Restleim zu umgehen, ist es angeraten, die Bindung eher etwas üppiger abzusäbeln. Tja, und dann stellt man schnell fest, dass plötzlich auf allen Innenseiten die ersten zwei Buchstaben jeder Zeile fehlen, weil der Verlag die Ränder vergleichsweise mager berechnet hat. Hurra! So wird jede “Ent-Bindung” eine Gratwanderung zwischen Form(at) und Inhalt. Automatische OCR kann man mit solchen Texten knicken.

Mangelndes Entmüllen: Schön wär’s, wenn bei der Cinema nur die Bindung den Scanner blockiert. Tatsächlich war das Heft zu seinen besten Zeiten in den 80ern angefüllt mit Filmpostkarten, Abo-Bestellern und sonstigem Kram, den man zuerst einmal entfernen muss. Bei den noch gehefteten Ausgaben (bis Ende 1982) ist die Abo-Karte sogar noch mal separat eingeheftet. Wenn man auch nur einen Fremdkörper übersieht (oder nicht mitbekommt, dass die Ausgabe ein Klappcover hat), ist der nächste Druckerstau vorprogrammiert.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Mangelnde Separierung: Die gehefteten Ausgaben sollten eigentlich leichter zu scannen sein als die gebundenen, weil man “nur” die Heftklammern entfernen muss und dadurch keinen Inhalt verliert. Aber mit A3-Seiten, die dann auch noch doppelseitig gescannt werden müssen, haben selbst Profigeräte mitunter ihre Probleme. Die ziehen notorisch gerne mal zwei oder drei Seiten gleichzeitig ein oder verwursteln die Seiten bei der Ausgabe so lange, bis der Gegendruck einen Papierstau verursacht. Da hilft nur: während des gesamten Scanvorgangs daneben stehen und mit einer Engelsgeduld die Seiten beim Einzug einzeln anheben, damit sie nicht mit der darunter liegenden nächsten Seite geschluckt werden. Klappt leider auch nicht immer.

Mangelnde Parameter: Das 7830 hat eine so kuriose wie ärgerliche Eigenschaft – die gesammelten Einstellungen für meine Scans werden nicht gespeichert und nach einer Minute gelöscht, wenn ich nicht binnen fünf Sekunden bestätige, dass sie beibehalten werden sollten. Das bedeutet, dass ich zwischen den Scanvorgängen keine Minute davonschleichen darf, um eine Cola zu holen oder auf die Toilette zu gehen. Tue  ich es doch, muss ich ALLES nochmal eingeben: auf USB scannen, beidseitig, Farbe und Text, A3 quer, randlos, 300dpi, als PDF-Datei, etc. Und wenn ich dabei EINEN Fehler mache, ist der ganze Scan sinnlos gewesen. Oder gerne auch mal mehrere denn…

Mangelnder Speicher: … mehr als ca. 1000 Seiten kann das 7830 intern nicht vorhalten. Das heißt: nach ca. 12 Ausgaben Cinema geht nichts mehr, bis das WorkCentre sämtliche Aufträge verarbeitet und auf den USB-Stick ausgespielt hat. Das kann (bei 300dpi) gerne mal eine halbe bis eine ganze Stunde dauern. Um der Effizienz willen muss ich also so lange “en bloc” scannen, bis der Speicher voll ist und dann eine längere Pause einlegen. Und das bedeutet…

Mangelnde Transparenz: Es hat zwei Tage gedauert, bis ich endlich die Funktion fand, um mir den Status meiner Scanaufträge anzusehen. Bis dahin hatte ich keine Möglichkeit zu sehen, ob die Scans schon auf dem Stick waren. Mehrfach hatte ich den Stick in gutem Glauben abgezogen – nur um ihn daheim dann leer vorzufinden. Und weil ich “en bloc” scannen muss, kann ich nie sagen, ob die einzelnen Scans was geworden sind, bis ich am nächsten Tag den Stick prüfe. Ich muss mich nur bei EINEM Parameter vertippt haben, schon ist die gesamte Arbeit des Tages im Eimer. Das nervt.

Mangelnde Sortierung: Bei der Geschwindigkeit, mit der das 7830 die Seiten einzieht und auswirft, ist es kein Wunder, dass die Seiten am Ende mitunter falsch ineinander geschoben werden. Wäre kein Problem, ich brauche die Papierstapel ja eigentlich nicht mehr. Eigentlich. Kommt es aber zu nur einem einzigen Fehler, muss ich den Scan oft genug wiederholen. Und das heißt: ich muss auch die Seiten neu und korrekt sortieren.

Mangelnde Kooperation: Nun sind all das technische Funkionen, keine Fehler. Wenn ich sauber arbeite und mich nicht vertippe, sollte die Arbeit trotzdem recht flott gehen. Wieder mal: leider nein. Manche Bücher oder Magazine WILL der Scanner nicht. Manchmal ist es nur eine Seite, bei der IMMER aus unerfindlichen Gründen ein Papierstau produziert wird. Ich habe die Vermutung, dass schon eine Seite mit zu viel Druckertinte wegen eines tiefschwarzen Fotos das 7830 aus der Bahn wirft. Oder zu holziges Papier aus DDR-Produktion. Irgendwas ist IMMER.

Aber wie gesagt: Lehrgeld. Ich habe eine Lernkurve und mittlerweile kann ich verschiedene Eigenheiten des Gerätes umschiffen. So lassen sich die A4-Stapel der Cinema aus unerfindlichen Gründen deutlich besser scannen, wenn man die Hefte nicht mit der langen Seite anlegt und hochkant scannt, sondern mit der schmaleren Stirnseite und quer. Das Scanergebnis bleibt gleich, aber die Stauquote ist massiv gesunken.

Ich bin zuversichtlich, dass ich bis zum nächsten großen “Brocken” nach der Cinema das System soweit im Griff habe, dass ich die Fehler und Scanstaus auf ein akzeptables Maß reduziert habe. Sonst lohnt sich das auch nicht.

Und nun seid ihr dran!

Hilferuf!

Es hat sich heraus gestellt, dass ich ein Problem habe, das klein sein sollte, mir aber viel Arbeit macht. Und vielleicht könnt ihr mir da helfen.

Wie ich oben erklärt habe, ist die schnellste und verlustfreiste Art, Zeitschriften zu scannen, die Entfernung der Heftklammern und der folgende doppelseitige Scan in A3. Da werden keine Ränder abgeschnitten und die Bögen bleiben intakt. Rein theoretisch müsste ich die Hefte nur wieder neu klammern, um sie in den Origjnalzustand zurück zu versetzen. So bleibt am Ende wenigstens kein Stapel Altpapier.

Das Problem – scannt man die A3-Druckbögen, haben die Scans eine auf den ersten Blick völlig undurchschaubare Reihenfolge. Schaut euch hier mal die ersten vier A4-Seiten einer beliebigen Ausgabe Cinema an:

Das sind die Seiten 50 (Rückcover), 1 (Cover), 2 (Innenseite Cover), 49 (Innenseite Rückcover). Danach folgen 3, 48, 4, 47… und so weiter.

Es ist für mich kein Problem, die A3-Seiten mit einem Tool in A4 zu splitten und so zu drehen, dass alle “aufrecht” stehen. Aber diese Sortierung! Ich KANN nicht jedes fertige PDF von Hand mühsam umsortieren. Das würde Tage dauern, vielleicht Wochen.

Nun ist es so, dass die Sortierung ja nur scheinbar chaotisch ist. Sie folgt einer ganz klaren Struktur. Im Grunde genommen werden die Seiten so gescannt, wie sie dereinst in der Druckerei bedruckt wurden. Als Vierer-Bogen. Daraus kann man die Parameter für eine Formel berechnen – meine Ausdrucksweise dürften einem Mathematiker nun vermutlich das Hirn bluten lassen:

  • Es gibt X Bögen à 4 Seiten (z.B. 25, wenn die Cinema 100 Seiten hat)
  • Die Zahl der Scans ist X mal 2, weil die A3-Bögen doppelseitig gescannt werden – macht also X2=50 bei einer normalen Ausgabe
  • Wenn ich die Seiten gesplittet und ausgerichtet habe, kommen wir zur echten Seitenzahl X2 mal 2, gleich 100 – hier jetzt Y genannt
  • Durch die Herleitung ist X immer ein Multiplikator von 4
  • Die ersten vier Seiten (S) sind dann: S1(Y), S2(+1), S3(Y-1), S4(+2)
  • Die zweiten vier Seiten (S) sind dann: S5(Y-2), S6(+3), S7(Y-3), S8(+4)
  • Das wiederholt sich, bis (Y-) den Wert Null erreicht.

Es muss doch möglich sein, die einzelnen PDF-Seiten nach dieser Formel automatisiert neu zu sortieren, oder?!

Das Tool Sejda bietet ebenso wie PDFsam eine Funktionen zur Resortierung von PDF-Seiten an, aber genau dieses Problem konnte ich damit leider nicht lösen.

Die Frage geht deshalb an euch: Kann jemand ein Tool oder ein kleines Applet erstellen, mit dem sich eine Reihe von PDF-Seiten nach diesen Vorgaben sortieren lassen, im Idealfall ohne externes Zutun? Oder gibt es dafür schon Skripts oder Programme? Meine Suche war leider bisher umsonst.

Es geht ja nicht nur um die Cinema – bei der Titanic und der Splatting Image erwartet mich das gleiche Drama.

Ich hoffe auf die Weisheit der Masse – und die Expertise eines Einzelnen…

NACHTRAG: Bei einem erneuten Versuch hat Sejda nun plötzlich doch korrekt durchsortiert. Ich muss da noch mal ins Labor…



Abonnieren
Benachrichtige mich bei
guest

7 Kommentare
Älteste
Neueste
Inline Feedbacks
Alle Kommentare anzeigen
S-Man
S-Man
11. Juli, 2018 11:24

Ich bin dran.

Wortvogel
Wortvogel
11. Juli, 2018 11:51
Reply to  S-Man

MOMENT! Siehe Nachtrag oben!

S-Man
S-Man
11. Juli, 2018 12:08
Reply to  Wortvogel

Zu spät, Sie haben Post 😉

Naja, danke für die kleine Übung 😀

Martzell
11. Juli, 2018 11:27

Gratuliere zu deinem Durchhaltevermögen. Ich erinnere mich an meinen Versuch damals meine Brasilienbilder zu scannen. Die instabile HP Scan Software mit dem hinderlichsten Workflow, den sich ein Folterknecht ausgedacht haben muss, trieb mich zur Weißglut und mangels ausreichender Frustrationstoleranz habe ich das Projekt schnell eingestellt.

Unsere fetten Druckstationen im Geschäft sind von der Benutzerführung und Geschwindigkeit fast so schlimm wie Deutsche-Bahn-Automaten.

Warum scannen neuerdings alle Scanner, auch die ohne OCR-Software, nach PDF? War gar nicht so einfach letzte Woche das JPEG verlustfrei aus dem PDF zu befreien (File Juicer, 14 € Mac Anwendung) , um Farbe und Kontrast des schlechten Scans verbessern zu können.

Wir (die Menschheit) haben ein Softwareproblem. Glücklicherweise gibt es die im Mac integrierte Scansoftware, die sogar Automatisierungsskripte einbindet (zumindest war das früher so). Oder ExactScan und weitere Mac Software die Wert auf optimierten Workflow legt (Google Suche: “mac scan automate”).

Wenn die Seiten als einzelne Dateien abgelegt sind und einen Zähler im Dateinamen enthalten ist es einfach mittels Skript
*1*.jpg, *2*.jpg, *3*.jpg, *4*.jpg, *5*.jpg… und so weiter, umzubenennen nach
*50*.jpg, *1*.jpg, *2*.jpg, *49*.jpg, *3*.jpg, *48*.jpg, *4*.jpg, *47*.jpg… und so weiter.

Hast du es geschafft die A3 Seiten automatisiert auf A4 zu halbieren (mittels Software oder schneidest du sie vor dem scannen einfach durch?) und ist es tatsächlich möglich die Seiten automatisiert richtig rum zu drehen?

Mit Apple Vorschau kannst du in der Kontaktbogenansicht (⌥⌘6) mehrere PDF-Seiten auswählen und auf einmal ans Ende verschieben. Wenn du Fenstergröße und Größe der Miniaturen mittels Pinch to Zoom (Zweifingerspreizgeste) entsprechend wählst, hast du 2 Spalten und kannst mittels Auswahlrechteck die rechte Spalte markieren und die Seiten alle auf einmal ans Ende verschieben… leider sind sie dann immer noch in der falschen Reihenfolge wird mir gerade klar; zumindest die erste Hälfte ist dann schon mal richtig.

Wenn du die Seiten eh manuell richtig rum hindrehen musst geht das einfach in Apple Vorschaus Kontaktbogenansicht mit ⌘r. Dabei kannst du die letzte Hälfte, die in umgekehrter Reihenfolge ist, vom Ende beginnend jeweils in ein neues Fenster ziehen.

Apple Automator bietet GUI Scripting, bewegt also den Mauspfeil für dich oder wählt Menübefehle für dich aus; via Recording. Für letzteres benötigt man ein PDF Programm welches per Menübefehl PDF-Seiten verschieben kann.

Mit Python geht alles und Python macht Spaß. pyPDF heißt das entsprechende Modul. Code Runner ist die einfachste mächtigste Python Entwicklungsumgebung mit debugging. Habe ich meiner Freundin gekauft damit sie mittels debuggen programmieren besser lernen kann.

https://www.blog.pythonlibrary.org/2010/05/15/manipulating-pdfs-with-python-and-pypdf/
http://virantha.com/2013/04/20/python-auto-sort-of-ocred-pdfs/

Falls du nicht programmieren kannst, kannst du mir Beispieldaten zukommen lassen, kann dann halt dauern bis ich mal dazu komme.

Ansonsten empfiehlt es sich via spezieller Desktopsoftware zu scannen, da die Software im Xerox Workcentre und Konsorten keinen gescheiten Workflow ermöglicht.

Wortvogel
Wortvogel
11. Juli, 2018 11:52
Reply to  Martzell

Viele spannende Ansätze. Ich schaue mir das mal an. Siehe auch Nachtrag oben!

H W
H W
12. Juli, 2018 10:33
Reply to  Wortvogel

Hallo Wortvogel,

ich habe mir auch schonmal überlegt, meine analogen Bücher (und ich habe viele) zu digitalisieren. Ich bin dabei auf DYI Bookscanner gestossen – auch zum Selbstbauen.
Im Prinzip ein Rahmen, zwei Kameras, Licht und Software.
Mag nicht so schnell wie ein offizieller Scanner sein, schont aber die ZEitschriften / Bücher, da sie nicht voll aufgeklappt werden müssen.

Ist das vielleicht ein Ansatz für Dich? Da hast Du auch JPGs und keine PDFs 🙂

Wortvogel
Wortvogel
12. Juli, 2018 11:01
Reply to  H W