05
Feb 2013

Experiment Spracheingabe: His Macsters' Voice

Themen: Neues |
YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Viele große Autoren mit erstaunlichem Output an Romanen, Essays und Kurzgeschichten haben nicht selbst geschrieben, sondern schreiben lassen. Entweder saß die Sekretärin mit dem Steno-Block daneben, es stand ein Diktaphon auf dem Schreibtisch – oder ein Mikro flüsterte dem Computer, was er in Schriftsprache umsetzen soll. Wenn ich mich recht erinnere, konnten Edgar Wallace und Georges Simenon auf diese Weise Romane in wenigen Tagen zimmern. Respekt.

Mangels Sekretärin habe ich vor Jahren schon mal mit Spracheingabe experimentiert. Ich habe mir ein Headset gekauft und dem Computer Beispieltexte vorgelesen, damit er sich an meine Stimme gewöhnt. Leider war die Erkennungsgenauigkeit nicht auf dem Level, das ich brauchte.

Und es gab und gibt auch noch andere Hindernisse, von denen ich heute erzählen will.
Warum wollte ich überhaupt mit Spracheingabe arbeiten? Nicht, um den Computer zu steuern, das ist klar. Ich bin ja nicht Stephen Hawking. Aber meine Freundin Diane Duane hatte mir erzählt, dass auch sie mittlerweile ihre Manuskripte teilweise mit Dragon Dictate verfasst. Es sei erstaunlich einfach und zeitsparend.

Die ersten Tests belegten allerdings, dass das nur für Englisch gilt, nicht für Deutsch – und auch dort nur für bestimmte Arten von Texten. Die deutsche Sprache ist nämlich ungleich schwieriger als das klar gesprochene, von kurzen Worten mit wenigen Silben geprägte Englisch. An vielen längeren Ausdrücken scheitert auch die beste Software, einige Begriffe werden falsch protokolliert, auch wenn man sie mehrfach einspricht.

Man kann versuchen, das durch gezieltes Worttraining auszumerzen, aber
a) wer will die Zeit investieren und
b) man weiß nie vorher genau, welche Wörter man letztlich braucht

Vor zehn Jahren war es außerdem noch so, dass man relativ abgehackt sprechen musste, um dem Computer die einzelnen Worte zu signalisieren. Das fühlt sich unkomfortabel an. Wenn man so flüssig die freie Rede beherrscht wie ich, möchte man sich nicht auf das Niveau von Robbi der Roboter reduzieren lassen.

Vor allem aber: belletristische Prosa zu diktieren ist die Hölle.

Eine Besonderheit der Spracheingabe ist nämlich, dass man Satzzeichen mitsprechen muss. Also nicht Hallo!, sondern Hallo Ausrufezeichen. In Sachbüchern und Reportagen, in denen man viel Fließtext zu Papier bringt, hält sich das in vertretbaren Grenzen. Wer allerdings einmal versucht hat, einen flockigen Dialog einzusprechen, der lernt die chinesische Wasserfolter der modernen Literatur kennen.

Zur Verdeutlichung hier ein kurzes Gespräch, wie es z.B. in meinen "Charmed"-Büchern stehen könnte.
"Hi", sagte Phoebe Halliwell. "Wieso bist du schon zu Hause?"
"Frag nicht", seufzte Piper. "Die Bar ist dicht."
"Echt?"
"Ganz echt!"

Das ist für einen geübten Autor schnell zu tippen, wir reden hier von Sekunden, auch ohne blindes Zehnfingersystem. SPRECHEN muss man für die vier Zeilen aber Folgendes:

ANFÜHRUNGSZEICHEN Hi ABFÜHRUNGSZEICHEN KOMMA sagte Phoebe Halliwell PUNKT ANFÜHRUNGSZEICHEN Wieso bist du schon zu Hause FRAGEZEICHEN ABFÜHRUNGSZEICHEN
ANFÜHRUNGSZEICHEN Frag nicht ABFÜHRUNGSZEICHEN KOMMA seufzte Piper PUNKT ANFÜHRUNGSZEICHEN Die Bar ist dicht PUNKT ABFÜHRUNGSZEICHEN
ANFÜHRUNGSZEICHEN Echt FRAGEZEICHEN ABFÜHRUNGSZEICHEN
ANFÜHRUNGSZEICHEN Ganz echt AUSRUFEZEICHEN ABFÜHRUNGSZEICHEN

Egal, wie schnell ich rede – DAS schreibe ich schneller.

Vor allem aber: bisher ist noch jede deutsche Spracherkennung an "Phoebe Halliwell" gescheitert – egal, wie sehr ich sie trainierte.

Mein Mac bringt seit OSX Lion eine eigene Spracherkennung mit. Die brachte mich auf die Idee, der Spracherkennung noch mal eine Chance zu geben. Die LvA hatte sich für Skype sowieso ein neues Headset zugelegt, da stand einem weiteren Experiment nichts im Wege.

Ich mache es kurz: Die Mac-Spracherkennung, die wohl wie Siri auf die Server des Konzerns zugreift, um die Genauigkeit zu verbessern, ist schon ziemlich gut. Sie arbeitet präzise und lautlos, verbraucht wenig Ressourcen und ist in jedem Programm durch einen einfachen "double tap" auf die Fn-Taste aktivierbar. Dafür ist sie in ihrer Funktionalität, soweit ich das bei meinem kurzen Test überschauen konnte, relativ eingeschränkt.

Als nächstes habe ich mir die aktuelle Version von Dragon Dictate Deutsch von einem Kollegen ausgeliehen. Für mehr als 100 Euro Ladenpreis sollte die doch eigentlich besser sein, oder?

Kurze Antwort: ist sie nicht. Sie macht nicht unbedingt weniger Fehler, sie macht nur ANDERE Fehler. Dafür bringt sie deutlich potentere Methoden mit, um diktierte Texte nachträglich zu verbessern. Man kann sich mit einfachen Sprachkommandos durch den Text hangeln, Wörter ersetzen und löschen, nachträglich Formatierungen einfügen etc. Ich halte es allerdings für den Normal-User für nicht praktikabel, sich eine derartige Menge an Befehlen dauerhaft zu merken. Diverse Male habe ich Textstellen komplett zerschossen, weil ich aus Versehen etwas gelöscht oder geändert habe und dann beim Versuch, den Fehler rückgängig zu machen, noch mehr versaubeutelt habe.

Was Dragon Dictate allerdings wirklich gut kann, ist das Training von unbekannten Wörtern. Wenn man ihm "Phoebe Halliwell" beibringen will, spricht man den Namen nicht nur dreimal ein – man tippt auch noch eine schriftliche Entsprechung, also "fibi halliuell". Dann geht es. Erstmals.

Beiden Programmen gemeinsam ist eine sehr flüssige Arbeitsweise – man kann wirklich natürlich mit ihnen sprechen und muss nicht permanent befürchten, dass die Software nicht "mitkommt".

Aber letztlich bleiben die Probleme, die ich schon vor zehn Jahren hatte. Dialoge sind unsäglich umständlich, Fremdwörter und Eigennamen brauchen zuviel Training, eine Schnellkorrektur ist kaum möglich. Es bleibt bei der Erkenntnis, dass ein professioneller Autor immer noch schneller tippt, als die Maschine mitschreibt. Allenfalls Gelegenheitsschreiber, Sekretärinnen oder Körperbehinderte dürften von so einer Software in dem Maße profitieren, dass es die lange Einarbeitungszeit rechtfertigt.

Der Computer hört, was ich sage – aber er versteht nicht, was ich meine.

Zur Frage, inwieweit es meinen Schreibstil verändern würde, wenn ich Texte nicht mehr tippe, sondern einspreche, bin ich gar nicht gekommen.

Das ist jetzt alles graue Theorie gewesen. Um euch konkret vor Augen zu führen, wie gut die Erkennungsleistung ist und worin sich Dragon Dictate und die Mac Spracherkennung unterscheiden, habe ich die Probe aufs Exempel gemacht – mit teils launigen Ergebnissen.

Hier ist der Anfang des obigen Texts mal praktisch unkorrigiert direkt aus Dragon Dicate:
Viele Autoren mit erstaunlichem Output an Romanen, SMS und Kurzgeschichten haben nicht selbst geschrieben, sondern schreiben lassen. Entweder saß die Sekretärin mit dem Stenoblock daneben, es stand ein Diktaphon auf dem Schreibtisch – oder ein Mikro flüsterte dem Computer Wasser in Schriftsprache umsetzen soll. Wenn ich mich recht erinnere, konnten Edgar Morales und Lorsch sie noch auf diese Weise Romane in wenigen Tagen zimmern. Respekt.
Mangels Sekretärin habe ich vor Jahren schon mal mit Spracheingabe experimentiert. Ich habe mir ein Headset gekauft und dem Computer Beispieltexte vorgelesen, damit er sicher meine Stimme gewöhnt. Leider war die Erkennungsgenauigkeit nicht auf dem Level, dass ich brauchte. Und es gab und gibt auch noch andere Hindernisse, von dem ich heute erzählen will.
Warum wollte ich überhaupt mit Spracheingabe arbeiten? Nicht, um den Computer zu steuern, das ist klar. Ich bin mir nicht Stephen Hawking. Aber meine Freundin Dian Duo hatte mir erzählt, dass auch sie mittlerweile ihre Manuskripte teilweise mit DragonDictate verfasst. Es sei erstaunlich einfach und Zeit sparen.
Die ersten Tests belegten allerdings, dass das nur für Englisch gilt, nicht für Deutsch – und auch dort nur für bestimmte Arten von Texten. Die deutsche Sprache ist nämlich ungleich schwieriger als das klar gesprochene, von kurzen Worten mit wenigen Silben geprägte Englisch. An vielen längeren Ausdrücken scheitert auch die beste Software, einige Begriffe werden falsch protokolliert, auch wenn man sie mehrfach einspringt.

Und das machte die hauseigene Mac-Spracherkennung daraus:
Viele große Autoren mit erstaunlichem Output an Romanen, Essayist und Kurzgeschichten haben nicht selbst geschrieben, sondern schreiben lassen. Entweder saß die Sekretärin mit dem Styropor daneben, es stand ein Dictaphone auf dem Schreibtisch – oder ein Mikro flüsterte den Computer, was er in Schriftsprache umsetzen soll. Wenn ich mich recht erinnere, konnten Edgar Morales und Stosch Semino auf diese Weise Romane in wenigen Tagen zimmern. Respekt. 
Mangels Sekretärin habe ich vor Jahren schon mal mit Spracheingabe experimentiert. Ich habe mir Headset gekauft und den Computer Beispieltexte vorgelesen, damit er sich an meine Stimme gewöhnt. Leider war die Erkennungsgenauigkeit nicht auf dem Level, dass ich brauchte. Und es gab und gibt auch noch andere Hindernisse, von dem ich heute erzählen will.
Warum wollte ich überhaupt mit Spracheingabe arbeiten? Nicht, um den Computer zu steuern, das ist klar. Ich bin ja nicht Stephen Hawking. Aber meine Freundin Dian During hatte mir erzählt, dass auch Sie mittlerweile Ihre Manuskripte teilweise mit DragonDictate verfasst. Es sei erstaunlich einfach und zeitsparende.
Die ersten Tests belegten allerdings, dass das nur für Englisch gilt, nicht für Deutsch – und auch dort nur für bestimmte Arten von Texten. Die deutsche Sprache ist nämlich ungleich schwieriger als das klar gesprochene, von kurzen Worten mit wenigen Silben geprägt Englisch. An vielen längeren Ausdrücken scheitert auch die beste Software, einige Begriffe werden falsch protokolliert, auch wenn man sie mehrfach ein spricht.

Gut. Aber nicht gut genug.



Abonnieren
Benachrichtige mich bei
guest
19 Comments
Oldest
Newest
Inline Feedbacks
View all comments
Dietmar
Dietmar
5. Februar, 2013 08:11

Lustig, was dabei heraus kommt. "Steno-Block" zu "Styropor"! 🙂

Torsten
5. Februar, 2013 08:53

Guter Punkt, und meine 2 Cents.
Dragon Dictate ist wirklich nicht besser und nicht schlechter als hier beschrieben. Habe ich, nutze ich aber nicht, und bei Siri sehe ich nicht ein, meine Stimme einmal quer um den Globus zu jagen. Siri ist aber m. E. sogar ein Stück präziser als Dragon Dictate.
Wirklich gut und produktiv ist dagegen das Windows-Pendant (Dragon Naturally Speaking), das man mit einem guten Headset aufpimpen sollte. Mein DNS funktioniert unter Parallels besser als DD unter Mac. Ja, man braucht erst eine Viertelstunde, um die Stimme zu trainieren und noch länger, um sich an die Befehle zu gewöhnen. Aber alles geht mehr als nur eine Stufe besser & smoother als bei DD. Der Haken ist auch hier, dass alle Eigennamen wie Phoebe erst einmal (aber auch nur einmal) trainiert werden müssen. Für meine Bedürfnisse ist dieser Haken aber kleiner als der Vorteil an Produktivität (als 2-Finger-Tipper).
Der springende Punkt ist, dass der Kopf sich nicht mehr auf das Tippen konzentrieren muss. Ob das der Formulierung und dem Denken zuträglich ist, weiß ich nicht genau, denke aber schon. Sicher lesen hier Hirnchirurgen mit, die das fachlich detaillierter darlegen können.

Testkaninchen
Testkaninchen
5. Februar, 2013 09:02

Und was hat das mit Kraftwerk zu tun? Dort wird Sprache synthetisiert, also genau anders rum. 🙂

Wortvogel
Wortvogel
5. Februar, 2013 09:29

@ Testkaninchen: Da kriegt ihr mal was umsonst (ein Video) und beschwert euch immer noch! 🙂 Die einzige Assoziation: so wie Kraftwerk musste man früher reden, wenn die Sprachsoftware was verstehen sollte.
@ Torsten: Genau das ist der Punkt – ich bin kein 2 Finger-Tipper. Ich tippe mit sechs bis acht Fingern blind und sehr schnell. Nachdenken muss ich da schon lange nicht mehr (böse Stimme sagen, meine Texte würden das bestätigen). Ich habe eher Probleme damit, einen Satz komplett zu formulieren, wenn er sich nicht vor mir auf dem Bildschirm/Blatt "entwickelt".

Wortvogel
Wortvogel
5. Februar, 2013 09:33

@ Dietmar: Mein absoluter Favorit sind die Umsetzungen von Edgar Wallace und Georges Simenon:
"Edgar Morales und Lorsch sie noch"
"Edgar Morales und Stosch Semino"
Wer zur Hölle ist Edgar Morales? "Stosch Semino" werde ich allerdings sicher noch mal brauchen können…

radio_gott
radio_gott
5. Februar, 2013 09:47

90% der besten Star Trek Romane, die ich gelesen habe, stammen aus der Feder von Diane Duane. Kannste Ihr gerne mal ausrichten!

Wortvogel
Wortvogel
5. Februar, 2013 09:48

@ radio_gott: Eigentlich nicht nötig – sie liest hier mit. Aber ich twitter mal.

Spandauer
Spandauer
5. Februar, 2013 09:49

Habe vor langer Zeit auch mal "Sprachsoftware" probiert und ähnliche Erfahrungen gemacht. Damals konnte man Zusatzpaket an Wörtern erwerben (z.B. für Anwälte) oder geschriebene Texte, die typisch für sein Fachgebiet sind durch die Software laufen lassen.
War aber alles nicht so prickelnd.
Edgar Morales hatte genug gesehen. Langsam, ganz langsam kam er näher. Immer näher und näher. Die Augen von Stosch Semino weiteten sich. Panik ergrief ihn, er hatte es doch gewusst. Hätte er mal bloß die Finger davon gelassen. Niemand konnte Edgar Morales hinters Licht führen. Aber nun war es zu spät für Stosch Semino. Schweigend blickte er nach oben, auch der Himmel verdunkelt sich, die Wolken schoben sich zu bedohrlichen Formation auf. Edgar Morales sah ihn kalt an und sprach…
Fortsetzung folgt 🙂

Wortvogel
Wortvogel
5. Februar, 2013 09:59

@ Spandauer:comment image

Spandauer
Spandauer
5. Februar, 2013 10:03

@Wortvogel
Nett, danke!
Gary Larson?

Wortvogel
Wortvogel
5. Februar, 2013 10:04

@ Spandauer: logo.

Frank Böhmert
5. Februar, 2013 14:21

Kleine Korrektur: Stosch Semino hat meines Wissens nie diktiert. Er hat mal mit Bleistift geschrieben, mal mit Schreibmaschine. Es gibt eine großartige Biografie von Stanley G. Eskin; wen’s interessiert, hier meine Lesenotiz: http://frankboehmert.blogspot.de/2012/02/gelesen-stanley-g-eskin-simenon-usa.html
Besten Gruß,
Bö.

Wortvogel
Wortvogel
5. Februar, 2013 14:27

@ Frank: Danke für den Hinweis – da trog mein Gedächtnis wohl.

Frank Böhmert
5. Februar, 2013 14:37

Na, Wortvogel, er hat ja durchaus so schnell produziert. Und er hat auch Sekretärinnen beschäftigt … bloß nicht mit Diktaten.

comicfreak
5. Februar, 2013 16:20

..dankeschön, jetzt weiß ich, was ich mir nicht kaufe.
Bleibt’s also bei der Handschrift-Umwandlung des Bamboo ^^
Immerhin bin ich deinem Beispiel folgend schon bei lD gelandet

Marcus
Marcus
5. Februar, 2013 17:14

Ist dein "Charmed"-Beispiel noch unvollständig oder muss man Zeilenumbrüche nicht mitdiktieren?

Daniel
Daniel
5. Februar, 2013 18:11

Geil! "die Sekretärin mit dem Styropor " … was allein dieser eine Ein-/Zu-fall wieder für viele Gedankensprünge sorgen kann…ein ganzer Film könnte man auf diesem Titel produzieren, oder? 😉

Baumi
Baumi
5. Februar, 2013 23:37

Ich krieg irgendwie das Bild nicht aus dem Kopf, wie Edgar Morales seiner Sekretärin die SMS in den Stenoblock diktiert. Dagegen sind Internet-Ausdrucker ja schon Hightech-affin…

jimmy1138
jimmy1138
6. Februar, 2013 10:08

ad "Morales": da gab’s ja in Urzeiten den sog. Cupertino-Effekt als Apple eine rechtschreibkorrektur angeboten hat, wo "cooperation" in "cupertino" (Firmenstandort von Apple) umgebessert wurde.
Ansonsten: bei tiefergehender Recherche kommt man drauf, wessen Technologie hinter der "hauseigenen" Spracherkennung von Apple steckt und warum die ähnliche Performance zu "Dragon Dictate" nicht unbedingt überraschend ist.
Daß Spracherkennung zum Server geschickt wird, spart einerseits Installation und Betrieb des Erkenners – netter Nebeneffekt ist, daß man auf den Firmenrechnern Unmengen an diktiertem Text ansammelt. IBM etwa hat einmal Siri in der Firma verbannt, aus Angst, der Konkurrent könne mithören. Ähnliche Möglichkeiten ergeben sich theoretisch auch für Smart-TVs mit Sprachsteuerung – da kann man jede Menge Daten über Kundenverhalten sammeln…
Zum Experiment noch ein Wort: interessant – statt des reinen Erkennungsergebnisses – wäre ein Zeitvergleich (Diktieren+Korrigieren vs Tippen+Überprüfen/Korrigieren) gewesen…