Vom Deepfake zum Realitätsverlust: Trauen wir noch unseren Augen?
Themen: Künstliche Intelligenz |Ich wollte meine neue Fotostory schreiben, ich schwör’s! Aber die KI ist mir schon wieder dazwischen gekommen. Es gibt Sachen, die ihr wissen solltet, gerade weil die KI immer allgegenwärtiger und damit gleichzeitig unsichtbarer wird.
Fangen wir mal mit KI an, die man nicht sehen und mit der man nicht interagieren kann, die aber drauf und dran ist, einen weiteren Berufszweig weitgehend arbeitslos zu machen: Die Synchronisation von Serien und Spielfilmen. Wie schon bei der ersten KI-Kochzeitschrift hat der Anbieter versucht, das Experiment stickum in den Markt zu drücken – die eher unauffällig veröffentlichte polnische Krimiserie MURDERESSES wurde augenscheinlich von einer israelischen Firma unter massiver Zuhilfenahme von KI synchronisiert. DWDL hat einen sehr schönen Artikel über den Vorfall veröffentlicht. Dort bitte nachlesen.
Nun muss man nicht audiophil sein um zu erkennen, dass es nicht funktioniert – die Stimmen klingen mechanisch und abgehackt, in emotionalen Szenen kann die KI nicht nachvollziehen, was der Darsteller transportieren möchte:
Aber die Tatsache, dass es nicht funktioniert, ist nicht das, worauf es ankommt. Es kommt darauf an, dass es schon sehr bald möglich sein wird. Das hier ist ein "proof of concept". Klar hat Magenta TV die Serie nach Beschwerden erstmal wieder aus dem Programm genommen, aber das ist nicht das Ende. Es ist der Anfang. Ich prophezeie, dass bereits in fünf Jahren zumindest für Klein- und Indie-Produktionen die automatisch erzeugte Synchro ein Standard sein wird. Weil sie nicht nur Geld und Zeit spart, sondern ansonsten chancenlosen Nischenfilmen den Zugang zum Weltmark eröffnet. Bei Dokumentationen wird sich die KI-Synchro vermutlich am schnellsten durchsetzen, denn hier muss nicht lippensynchron gearbeitet werden und die Sprecherstimmen sind zumeist entspannt. Das kann die KI schon lange.
Und wo wir gerade bei Prophezeiungen sind – ich bin ziemlich stolz auf das, was ich vor 14 Jahren lange vor dem KI-Boom zu diesem Thema aufschrieb:
Ab 2022 ist die Technik so weit, dass eine digitale Echtzeit-Übersetzung den Originalton mit wählbaren Stimmfarben perfekt an die Lippenbewegungen anpasst – Synchronisation wird überflüssig und endlich können auch die Menschen in Burkina Faso und Tibet Bruce Willis in der Landessprache reden hören.
Ich hab’s gesagt und so wird’s kommen.
Mit verblüffend echten KI-Videos von Personen haben wir uns ja schon öfter beschäftigt und die Phrase "das hier erreicht ein völlig neues Level" klingt ziemlich abgedroschen – aber das hier erreicht ein völlig neues Level:
Wir erreichen bald den Kipppunkt – den Moment, an dem wir keinem Bild, keiner Tonspur und keinem Video mehr ohne Gegencheck vertrauen können.
Für größere Projekte wird das Problem auf absehbare Zeit weiterhin sein, dass die KI sich schwer tut, von Szene zu Szene konstant zu bleiben. Sie generiert immer alles weitgehend neu, statt aus der ersten Szene eine "baseline" zu machen, die alle weiteren kontrolliert. Das ist auch bei dem nachfolgenden Beispiel gut zu erkennen, in dem Christopher Reeve (+2004) zu neuem digitalen Leben erwacht:
Auch hier gilt: längst nicht perfekt. Aber es ist schon besser als die teuer bezahlte Digi-Darstellung in THE FLASH und besser als das, was professionelle Tricktechniker mit herkömmlichen Tools in Wochen erstellen können.
Einige Videos träumen bereits von einer Zeit, in der wir alle unsere Pixar-Filme selber produzieren können:
Das ist natürlich weitgehend Kappes, denn schon diese Fake-Trailer zeigen, wie schwer sich die KI tut, einen homogenen Ablauf zu simulieren. Und es ist ja nicht die Technik, die Pixar so überlegen macht, es ist das Storytelling. Wenn man (ausgerechnet!) Paul Schrader glauben mag, ist es allerdings nur eine Frage der Zeit, bis die KI uns auch die lästige Schreibarbeit abnimmt.
Bonusrunde!
Es gibt schon lange Jungs im Internet, die erstaunlich gut darin sind, Orte anhand von wenigen Bildern weltweit zu identifizieren – GeoGuesser:
Diese Aufgabe kann nun problemlos (?) GeoSpy übernehmen:
Auch hier kann man sich nur vorstellen, wie sehr das auch missbraucht werden kann – von professionellen Betrügern bis zu Stalkern und dem Chef, der gerne genauer wissen will, wo der Angestellte sein Homeoffice hat.
Das klingt alles spannend, lustig, vielleicht auch beunruhigend. Aber es ist viel mehr als das. Wir werden gerade von etwas überrollt, dessen wirtschaftliche, politische, philosophische und kulturelle Folgen wir nicht absehen können.
Ich weiß nicht, wohin das alles führt. Was kommt raus, wenn das Entertainment nicht mehr von Menschen für Menschen gemacht wird, sondern von Maschinen? Wenn das, was wir sehen, genauso wahrscheinlich eine Simulation wie eine Realität sein könnte? Werden wir die menschliche Kreativität verkrüppeln lassen, in dem wie sie outsourcen wie einst die körperliche Schwerstarbeit in der Landwirtschaft? Wenn wir nichts mehr selber bauen, schaffen, erdenken – was bleibt dann noch von uns übrig? Wozu sind wir dann noch da? Wird die Welt irgendwann von Maschinen und KI durchorganisiert, während wir nur noch wie debile Drohnen daneben sitzen und konsumieren? Wenn wir nicht mehr gebraucht werden – wozu braucht es dann die Maschinen und die KI, die doch nur uns zuarbeiten sollen? Wird kommen, was SF-Autoren schon in den 60ern erdachten – eine leere Welt, in der komplexe Systeme endlos und sinnlos eine längst untergegangene "Zivilisation" automatisiert am Laufen halten?
A world for us – but without us?
Die einfache und in diesen Tagen oft zu lesende Antwort lautet: "Wir müssen jetzt die Grenzen ziehen, die Gesetze machen, die uns vor dem Wildwuchs und den damit verbundenen Schäden der KI schützen". Aber wie sollen diese Maßnahmen aussehen? Wer soll es kontrollieren? Kämpft hier die Politik nicht gegen Windmühlen, weil nicht nur die Wirtschaft, sondern auch die Medien und ein großer Teil des Volkes genau das wollen, was gerade passiert?
Um ausgerechnet einen Fake-Popsong der 80er zu zitieren: "You can’t handcuff the wind – it’s like trying to put thunder in jail."
P.S.: Den Titel dieses Beitrags habe ich mir nach einer Textanalyse von NotebookLM vorschlagen lassen.
Sehr interessant ja. Das Ding ist: wir sind zuviele. Selbst wenn Europa sagen würde, wir ziehen eine Grenze – welcher art auch immer – würde China dies nicht tun.
Es ist ähnlich wie beim Klimaschutz : geht uns alle an.
Bedroht uns alle.
Aber wir sind weit davon entfernt , es gemeinsam anzugehen
Sehr starker Absatz "Ich weiß nicht, wohin das alles führt […]", da läuft es einem kalt den Rücken runter. x-(
Das Video zu OmniHuman ist extrem beeindruckend. Während des Schauens fällt einem nahezu nichts auf, was auf den KI-Ursprung hindeutet. Das sieht sehr überzeugend aus und dies mit nur einem Bild als Input. Man muss fast hoffen, dass die gezeigten Beispiele geschönt sind. Ich neige eigentlich nicht zu Pessimismus. Aber mir macht zunehmend große Sorgen, wie KI-basierte Bild und Videogeneratoren unsere Welt negativ beeinflussen werden. Die Beweiskraft von Bildern und Videos nimmt rapide ab.
Man wird, nein, man kann wohl bereits jede Person, von der man ein vernünftiges Foto hat, glaubwürdig einen beliebigen Text sagen lassen. „Wunderbar“ für Fake-News bei denen man beispielsweise Politikern skandalöse, aber nie real stattgefundene, Aussagen in den Mund legt. Umgekehrt kann sich jeder, der bei realen skandalösen Aussagen gefilmt wurde, damit rausreden, dass dies ja nur ein Deep-Fake war.
Es mag sich vielleicht mit einer gründlichen Analyse durch Experten feststellen lassen, ob KI im Spiel war oder nicht. Aber der Schaden kann trotzdem immens sein.
Das Problem wird sein, dass Menschen glauben, was sie glauben wollen – im Zweifelsfall wollen die keinen Check, wenn ein Video behauptet, was ihnen in den Kram passt.
Richtig. Zudem müssten sie den Check ja auch überhaupt erstmal zu Gesicht bekommen. Dann kommt die Frage der Akzeptanz von diesem. Da wird der Check mitunter einfach als Lüge „von denen“ diskreditiert.
fing ja schon mit dem grossartigen Deep Fake Neighbour Wars an . gerade die folge mit dem Paar Nicki Minaj und Tom Holland ist einfach grossartig
https://www.youtube.com/watch?v=XTSuOX0HPKM
" Ich prophezeie, dass bereits in fünf Jahren zumindest für Klein- und Indie-Produktionen die automatisch erzeugte Synchro ein Standard sein wird. Weil sie nicht nur Geld und Zeit spart, sondern ansonsten chancenlosen Nischenfilmen den Zugang zum Weltmark eröffnet"
Genau das hoffe ich auch. vielleicht auch ganz anders. Die KI analysiert die Dialoge und erstellt ein Stimmenprofil, wo vielleicht ein Mitarbeiter dann noch emotionstags anhängt, und das wird wie so ein subtitle oder midifile mitgesendet oder kann käuflich erworben werden. zu Hause hat man dann ein kleines Programm, wo man Synchronstimmen kaufen kann, und aus dem File und den Stimmen wird dann die synchro erzeugt. fände ich jedenfalls gut – oder man kann es selber machen und das filmstudio liefert nur den 4k (restaurierten) Film und man kauft eine Lizenz für eine lokale Synchro 😉
"Nun muss man nicht audiophil sein um zu erkennen, dass es nicht funktioniert – die Stimmen klingen mechanisch und abgehackt, in emotionalen Szenen kann die KI nicht nachvollziehen, was der Darsteller transportieren möchte:"
Das beschreibst du (natürlich) aus deutscher Sicht. Ich hab eine Zeit lang alte deutsche Filme in russischer Ausstrahlung gesichtet. Da lief dann im Hintergrund leise der Originalton und ein einziger bärtiger Russe (den Bart hat man gehört, ich schwörs) hat ALLE Dialoge (Männlein, Weiblein, Kinderlein) auf Russisch eingesprochen. Mal mit mehr, mal mit weniger Begeisterung.
… will sagen: Bloß keine KI, ich will mehr bärtige Russen als Einsprecher!
Das kannst du hier nachlesen.
Hallo zusammen! Sehr kulturpessimistische Stimmung diesmal, bei diesem Beitrag. Mir fällt auf, dass viele Autoren/Künstler in letzter Zeit Facebook, Instagram verlassen haben und nun wieder oldschool-mäßig bloggen (heißt nun bei manchen Newsletter). Sie möchten sich von den "Drecksmaschinen" (Zitat einer Autorin) wieder so weit es geht abnabeln. Viele sind jetzt, nun ja, bei Bluesky. Grund war natürlich Zuckerberg mit seiner neuen "Firmenphilosophie".
Einen interessanten Beitrag dazu findet man auf dem Blog der Autorin Katja Kullmann. Aber meine eigentliche Frage: Werden Cutter/Editoren nicht auch bald arbeitslos? Der normale Zuschauer wird einen guten von einem (eher) schlechten Schnitt nicht unterscheiden können (das behaupte ich jetzt mal). Die KI kann bei 60-minütigen Tierdokumentationen (zB über Seeadler) ja mal anfangen, der Schnitt ist dann in drei Minuten fertig. Weiß jemand darüber näheres? Oder wird der Markt damit bereits geflutet?
Es gibt seit Jahren Programme, die einen Grobschnitt bereits vorschlagen. Aber ich sehe das eher als Werkzeug denn als Ersatz für den Job. Die meisten Filmemacher haben framegenaue Vorstellungen, wie es am Ende aussehen soll. Ich kann mir das aber sehr gut für Produktionen vorstellen, die sehr schnell und sehr viel produzieren, z.B. Soaps, Reality-TV, News-Reportagen. Da wird es Prompts geben, an denen sich der KI-Cutter orientiert – und am Ende schaut nur noch ein Mensch mal drüber.
Womit man den geneigten Konsumentzen catchen könnte, wäre eine Ki Synchro von Blockbustern oder Klassikern mit den Stimmen von Familienmitgliedern…oder Fips Asmussen.
Oder die Ki schaut sich die gehörte Musik an und generiert entsprechendes Hörbares.
Ich glaube, das ist gar nicht nötig – die Vorstellung, dass man alles relativ einfach übersetzen / synchronisieren / einsprechen lassen kann, reicht aus. Man macht den Konsumenten unabhängig von dem, was der Produzent als notwendig und profitabel betrachtet. Siehe auch hier.
Ich weiß nicht mehr, wo ich es gelesen habe, aber eine neuere Überlegung ist es wohl, auf Dating-Apps den Usern KI-Avatare zu geben. Die handeln dann untereinander die Kennenlern-Phase aus, und man braucht sich nur noch treffen und nicht lange reden. Allein das ist schon genug Stoff für zwei, drei dystopische 90minüter.
Rückblickend muss man wohl sagen, dass die minutenschnelle und totale Vernichtung durch Skynet eigentlich das gnädigere Ende der Menschheit gewesen wäre.
So dramatisch sehe ich das nicht – ich bewundere nur wieder mal Neil Postman (der das hier vor 40 Jahren geschrieben hat).
Diese neuere Überlegung klingt aber sehr stark nach der Black Mirror Folge "Hang the DJ" 😉