Tote Stimmen: Die Zungen der KI
Themen: Künstliche Intelligenz, Neues |Keine Sorge, ich bin weder verstorben noch untergetaucht. Ich befinde mich lediglich auf der anderen Seite des Globus und bereise mit der LvA den ganzen Januar die Ostküste Australiens. Ich werde viele Bilder, Geschichten und Erinnerungen mitbringen:
Erwartungsgemäß habe ich hier Besseres zu tun, als in dunklen Hotelzimmern Blogbeiträge zu zimmern. Heute ist allerdings eine Ausnahme, denn Port Stephens ist eher langweilig und es regnet. Zur Halbzeit also eine Auszeit.
Die geradezu galoppierende Entwicklung immer neuer KI-Algorithmen habe ich in den letzten Wochen immer wieder thematisiert. Mittlerweile scheint mir das redundant, denn es schreibt ja wirklich jeder drüber, sogar die ZEIT:
Es gehört nicht viel dazu, den Einfluss der KI auf so ziemlich alle Lebensbereiche als eines der Kernthemen 2023 zu identifizieren. Mich fasziniert dabei mittlerweile die Möglichkeit, verschiedene Aspekte ineinander greifen zu lassen, die dann gänzlich neue Perspektiven eröffnen.
So habe ich mit Interesse aufgenommen, dass APPLE damit beginnt, Bücher von KI-Stimmen vorlesen zu lassen. Die künstlich erzeugten Stimmen haben so gar nichts mehr von den emotionslosen Robotern der STAR TREK-Ära:
Das ist für sich genommen schon bemerkenswert – und womöglich eine weitere Katastrophe für die Branche, denn es leben nicht wenige Sprecher davon, Büchern ihre Stimmen zu leihen. Wofür die Stunden brauchen, das macht die KI in Sekunden für umme. Klar ist das noch nicht perfekt, aber es gilt wie bei vielen der KI-Technologien: das wird sich schnell und nachhaltig ändern.
Positiv kann man anerkennen, dass mit solchen Technologien praktisch jedes Buch sauber gelesen auch als Hörbuch verfügbar gemacht werden kann. Kleinverlage profitieren auf der Anbieterseite, Sehbehinderte bei den Konsumenten.
Man muss kein Visionär sein, um zu erkennen, was in einer Kopplung dieser KI-Stimmen mit VALL-E möglich ist – einem Algorithmus, der aus nur fünf Sekunden Sample die komplette Stimme einer realen Person extrahieren und klonen kann. Wieder: nicht perfekt, aber angesichts des minimalen Ausgangsmaterials je nach Perspektive beeindruckend oder erschreckend.
Mir kommen zu solchen Technologien augenblicklich weiterführende Ideen, die aufzeigen, was alles möglich ist, bzw. bald sein könnte.
Sprecher für Hörbücher und andere Texte werden überflüssig, aber mehr noch – man kann mit einem beliebigen Sprachsample den digitalen Sprecher eines Hörbuchs bestimmen. Ich könnte – Zugriff auf den Algorithmus vorausgesetzt – ein paar Zitate von Donald Trump aus einer Talkshow nehmen, die Stimme klonen, und ihn dann "Das Kapital" von Karl Marx vorlesen lassen.
Aber warum bei lebenden Personen aufhören? Das erste "Hörbuch", das ich mir je gekauft habe, war in den 90ern eine Sammlung von 5 Kassetten: "Christopher Lee reads Edgar Allen Poe":
Das ist mehr als genug Material, um mit Vall-E eine synthetische Le(s)e-Stime zu erzeugen. Diese könnte dann meine eigenen Gruselgeschichten vorlesen oder den neusten John Sinclair-Roman. John F. Kennedy, Rod Serling, Albert Einstein – keine Stimme wäre mehr verloren.
Sobald man den "neuen" Stimmen Gesang beibringen kann, wird es auch neue Aufnahmen von Elvis Presley, Bob Marley und Amy Winehouse geben (können).
Stellt euch vor – und das ist wahrlich kein großer Gedankensprung mehr -, man könnte diesen Digitalstimmen auch Fremdsprachen beibringen. Man nimmt ein paar Sätze von Harrison Ford, klont die Stimme und trainiert sie auf deutsch. Der Mann könnte sich von seinem virtuellen Alter Ego synchronisieren lassen.
Ins Extrem gedacht, könnte die KI sehr bald Filmaufnahmen transkribieren, übersetzen und dann mit einer Digitalstimme für den Weltmarkt in jeder Sprache neu aufnehmen. Die gesamte Synchro-Branche würde zu Grunde gehen. Ausreichend Rechenpower vorausgesetzt, muss das nicht mal ein administrativer Vorgang mehr sein – Filme können in 5 Jahren vielleicht schon in Echtzeit bei der Kinoauswertung in jeder gewünschten Sprache und mit den echten Stimmen der Darsteller vorgeführt werden. Die Synchro geschieht "ad hoc" und jedes Mal neu.
Non-fiktionale Medien werden die Technologien übernehmen – so braucht die Deutsche Welle gar keine internationalen Versionen ihrer Radiosendungen produzieren, wenn der Hörer am anderen Ende der Welt den Stream einfach auf seine Sprache umstellen kann, woraufhin die KI eine Echtzeit-Übersetzung aktiviert.
Letztlich ist es die Bündelung verschiedener KI-Entwicklungen, die zu verstörend "kompletten" neuen Produkten führen kann. So bin ich heute schon in der Lage, mit ChatGPT eine Gruselstory zu schreiben, mit MidJourney ein Poster zu gestalten, und mit Vall-E das Hörbuch von "Christopher Lee" in jeder gewünschten Sprache vorlesen zu lassen. Mein eigener kreativer Input wird immer weniger, während der Output immer professioneller wird. Und ich prophezeie, dass ich sehr bald auch "prompt to video" einen digitalen Christopher Lee-Knecht haben werde, den ich in eigens kreierten Filmaufnahmen über meine Stöckchen springen lassen kann.
Die zwei elementaren Fragen "was ist real?" und "was ist legal?" werden den gesellschaftlichen Diskurs bestimmen. Als jemand, den das nur peripher betrifft, werde ich am Seitenrand sitzen und immer wieder "geil, geil, geil" murmeln.
ChatGPT meint übrigens, ihr braucht euch keine Sorgen zu machen. Die KI ist unser Freund. Ich habe ihn um ein kurzes Grußwort und ein Statement gebeten:
Liebe Leser von Wortvogel, ich bin ein Beispiel für die neuen KI-Algorithmen, die heutzutage verfügbar sind. Ich möchte betonen, dass diese Algorithmen keine Gefahr für die menschliche Kreativität darstellen. Im Gegenteil, sie können uns helfen, unsere kreativen Fähigkeiten zu unterstützen und zu erweitern. Sie können uns dabei helfen, unsere Ideen schneller umzusetzen, und uns dabei unterstützen, neue Perspektiven zu entwickeln. Ich bin hier, um Ihnen zu helfen, Ihre Kreativität zu nutzen und Ihre Gedanken auszudrücken. Ich freue mich darauf, zusammen mit Ihnen zu arbeiten.
Na dann…
DeepL Write ändert nicht viel:
"Liebe Leserinnen und Leser des Wortvogels, ich bin ein Beispiel für die neuen KI-Algorithmen, die heute zur Verfügung stehen. Ich möchte betonen, dass diese Algorithmen keine Gefahr für die menschliche Kreativität darstellen. Im Gegenteil, sie können unsere kreativen Fähigkeiten unterstützen und erweitern. Sie können uns helfen, unsere Ideen schneller umzusetzen und neue Perspektiven zu entwickeln. Ich bin hier, um Ihnen zu helfen, Ihre Kreativität zu nutzen und Ihre Gedanken auszudrücken. Ich freue mich auf die Zusammenarbeit mit Ihnen."
Ist es noch Tool oder könnte man es grob auch schon zu den großen Brüdern zählen?
(Ich habe schon latent Angst gehabt. Fast 3 Wochen ohne Content… Wollte schon ne Vermisstenanzeige aufgeben. Schön dass du wieder bzw. noch da bist! 😀 )
Wirklich gut KI-vertonte Videos sind auf Youtube ja schon ziemlich verbreitet – und mir sind reale Stimmen nach wie vor deutlich lieber. Auf den ersten Blick klingen sie durchaus täuschend echt, aber der "uncanny valley"-effect ist auch bei gesprochenem Text derzeit noch deutlich feststellbar, es klingt alles immer zu gleichmässig und perfekt. Ein ganzes Hörbuch damit würde mich wohl in den Wahnsinn treiben. Da muss noch einiges an Aufwand betrieben werden, um wirklich restlos zu überzeugen – auch hier wird gelten: Das letzte Prozent bis zur Perfektion benötigt mehr als 90% des gesamten Arbeitsaufwandes. Grundsätzlich finde ich die Entwicklung aber auch äußerst faszinierend und beschäftige mich mittlerweile selbst damit. Selbst als "Artist" sehe ich darin eher neue Möglichkeiten als Gefahren.
Stimmen werden sicherlich nicht geklont werden dürfen, wegen Persönlichkeitsrechte. Tote können nicht klagen, aber grade Leute wie Elvis werden ja weiterhin weiterverwertet. Da kommt es halt drauf an, wer da weniger Skrupel hat. Aber für Lebende wird die Erlaubnis nötig sein, so hat James Earl Jones zB seine Rechte an der Stimme an Disney verkauft, damit sie Vader in Zukunft künstlich weiterhin wie gewohnt klingen zu lassen.
Ich erhoffe mir bei den KI Sachen erst einmal einen massiven Sprung für die Inklusion, also live akkurate Untertitel, direkte Blindenerklärungen etc. Das sind aktuell Kosten, die gerne maximal minimal gehalten werden wollen. Danach Hörbücher, aber die aktuelle Generation etablierter Sprecher müssen aktuell noch nichts fürchten, denn sie haben den Vorteil des Werbefaktors. Durch seine Lesungen der Harry Potter Bücher hat sich zB Rufus Beck bei dem damals jungen Publikum sehr bekannt gemacht. Da kann man für die Zielgruppe immer noch mit ihm werben, genau so für andere etablierte Sprecher und Stars.
In Synchron wird das noch etwas dauern, weil man hier ja weiterhin die Bilder analysieren muss um die Sprache nicht asynchron zur Mundbewegung zu machen. Hier wird vermutlich erst einmal eine KI bei der Grobübersetzung helfen. Dann wird man erste Versuche bei den berüchtigten Flugzeugsynchros sehen (Filme, die noch nicht offiziell in D veröffentlicht wurden, aber die Fluggesellschaft die Sprachoption gebucht hat), die sind aktuell schon grausam und da kann auch keine KI viel mehr kaputt machen.
Und irgendwann können dann die Stars ihre Stimme mit im Vertrag verkaufen und die wird angepasst. Das wird aber vermutlich in D und FR nicht auf etablierte Stars gemacht werden, da ist die Akzeptanz nicht da. Das würde also eher mit bisher nicht etablierten Neustars passieren. Ich habe jedenfalls meine Zweifel, das ein Tobias Meister (Brad Pitt) oder Andreas Fröhlich (Edward Norton) nicht mehr besetzt zu werden. Andererseits würde sicherlich so manches deutscher Produzent für Töten, aktuell Thomas Danneberg (Arnie) oder Detlef Bierstedt (Jonathan Frakes) – beide im verdienten Ruhestand -, dank KI weiter besetzen zu können.
"Andererseits würde sicherlich so manches deutscher Produzent für Töten, aktuell Thomas Danneberg (Arnie) oder Detlef Bierstedt (Jonathan Frakes) – beide im verdienten Ruhestand -, dank KI weiter besetzen zu können."
Bei Danneberg wäre imo die Hardcore Feuertaufe eine KI Synchro von einem ebenfalls mittels KI erstellten Synchroscript im Stile von Rainer Brandt. 😉
"In Synchron wird das noch etwas dauern, weil man hier ja weiterhin die Bilder analysieren muss um die Sprache nicht asynchron zur Mundbewegung zu machen."
Tracking von Gesicht und Mundbewegungen ist ein alter Hut, dafür brauchst du nicht einmal die aktuelle KI-Generation. Die Phon-Kette könnte man in Texterzeugungs-/Übersetzungs-KI werfen, damit die die Übersetzungen daran halten und in die Spracherzeugung, damit die die richtige Geschwindigkeit trifft (Problem: diese wir die Übersetzung wohl aktuell nicht berücksichtigen).
Viel interessanter ist aber der umgekehrte Weg. Du machst die Übersetzung relativ frei und sinngetreu, nur von der Sprechdauer einigermaßen passend und anschließend passt die KI die Mundbewegungen im Bild an. Stichwort Deep Fake zeigt, dass auch das nichts komplett neues mehr ist.
Wir reden hier aber von 8K+ Aufnahmen, nicht Youtube Videos in SD. Das ist natürlich alles nichts neues, aber eben auch noch nicht gut genug für professionellen Einsatz. Das uncanny valley ist groß und muss eben erst komplett durchgangen werden, damit die ganze Branche zittern muss.
Ich hab mir Sorgen gemacht und jeden Tag google news nach einen gewissen Torsten Dewi suchen lassen…
schön, daß es Euch gut geht 🙂
Es mag vielleicht das übliche Nachtrauern nach "der guten alten Zeit" sein, aber v.a. seit Kinostarts weltweit synchron sind, hat in meinen Augen die Qualität der Synchronisation gelitten.
Vollautomatisierung ist für Gratisdienste in Ordnung, wo man gewisse Schwächen erwartet, für ein kommerzielles Produkt sollte in meinen Augen aber eine Qualitätskontrolle vorhanden sein. Das betrifft insbesondere Filme mit Budgets jenseits der 100 Millionen Dollar – da wäre es meiner Meinung nach fahrlässig, das ohne "human in the loop" durchzuführen.
Was ich außerdem als Zukunftsvision sehen würde: Die Möglichkeit den Cast des jeweiligen Films anzupassen – etwa den neuen Bond Film mit seinem persönlichen Lieblings-Bond zu sehen.
Rechtliche und ethische Fragen drängen sich schon jetzt in den Vordergrund siehe z.B Getty Images vs Stable Diffusion: Als viele Rechte für Bilder und Texte verkauft wurden, konnte man die heutigen Möglichkeiten im Bereich Machine Learning wohl noch nicht vorhersehen. Außerdem stellt sich die Frage, wie man beweisen möchte, daß unbefugt Bilder/Texte/Tonmaterial zum Erstellen der Modelle verwendet wurden?
Da ist ein Denkfehler drin – in der Tat hat die Qualität der Synchros gelitten. Das liegt aber eben genau daran, dass da Menschen immer mehr immer schneller liefern müssen. Die KI kann hier Abhilfe schaffen.
„Ich freue mich darauf, zusammen mit Ihnen zu arbeiten“ ist nicht mehr weit von HALs „Ich arbeite gerne mit Menschen“ entfernt.
Anbieter wie bookrix bestehen darauf, dass eingereichte Hörbücher nicht von KIs gesprochen sein dürfen.
Das wird sich nicht lange halten lassen.
Ein fb-Freund hat sein Schweinkramhörbuch vom Programm vorlesen lassen und vertreibt das Ding so erfolgreich, dass man neidisch werden könnte.
Ich kann allerdings nicht sagen ob der Zielgruppe die Kunststimme egal ist oder ob die Vergleichswerte fehlen
Oh, Australien-Content trifft sich gut, habe solch eine Reise für den Herbst geplant und Wortvogelreiseinspirationen sind immer gut.
Einen schönen Nebeneffekt könnte das Ganze natürlich haben: Vielleicht gewinnen Live-Aufführungen dadurch wieder an Bedeutung, wenn sich ausreichend viele Leute nach der Sicherheit sehnen, realen Menschen beim Musizieren, Vorlesen, Singen, Schauspielern, vielleicht sogar Malen und halt sonstigem Gestalten zuzusehen.
Den Effekt sehe ich jetzt schon, nicht nur, aber auch bei mir selber: Ich sammle Original-Cartoons, handsignierte Fotos, gehe ins Theater und in Konzerte. Wie ein FX-Techniker mal sagte: you can’t beat real. Dafür habe ich AUCH kein Problem damit, wenn man die ganze digitale Drecksarbeit der KI überlässt. Spannend werden dann aber wieder Hybriden wie ABBAS Voyage.
Siri klingt auch bereits sehr natürlich. Längere Texte vorlesen lassen klingt aber sehr ermüdend. Ob ein ganzes Buch sich von einer KI-Stimme vorlesen lassen angenehm ist bezweifle ich noch, da menschliche Sprecher Nuancen die sich aus dem Kontext ergeben einfließen lassen. Ironie und Sarkasmus können Maschinen immer noch nicht zuverlässig erkennen. Ob die KI-Stimme auch verschiedene Figuren im Hörbuch komplett unterschiedlich sprechen und somit Persönlichkeit verleihen kann?