11
Apr. 2025

Worte, Hände, Gesichter, Kontext: Wird die KI endlich erwachsen?

Themen: Künstliche Intelligenz, Neues |

Man kommt bei den Entwicklungen der Künstlichen Intelligenz kaum noch nach. Auch im meinem Alltag nutze ich immer mehr Plattformen und Agenten, die mir (aktuell noch überschaubar) Arbeit abnehmen und Abläufe automatisieren.

Besonders gespannt sehe ich den Agenten entgegen, die für mich aktiv Prozesse anschieben können. In einer perfekten Welt sollten solche Prompts funktionieren:

"Schau auf der Webseite des Fantasy Filmfest nach, welche Filme auf dem Festival im September laufen. Baue dazu die üblichen Templates der Filme als WordPress-Entwürfe in der Reihenfolge, in der die Filme gezeigt werden. Ziehe dafür die Stabangaben und den Inhalt aus dem offiziellen Material, ergänzt durch Poster, Standfoto und Trailer an den üblichen Stellen."

Das allein würde mir einen ganzen nervigen Nachmittag sparen.

Heute soll es aber um einen spezifischen Aspekt der KI gehen, bzw. eine auch für Laien erkennbare Verbesserung. ChatGPT ist für die meisten User synonym mit Text-KI, während Angebote wie Dall-E und MidJourney für Bilder zuständig sind.

Allerdings verschwimmen die Grenzen immer mehr und ChatGPT kann schon länger Bilder produzieren, wenn auch nicht in der Qualität von MidJourney. In diesen Tagen hat man dafür von Dall-E auf das potentere Modell 4o umgestellt. Bei heise gibt es eine schöne (aber kostenpflichtige) Einführung in das Thema.

Es dürfte niemanden wundern, dass ich das neue Modell direkt mal für eine Probefahrt angeworfen habe. Auch als nicht zahlender User kann man damit jeden Tag drei bis fünf Bilder generieren lassen.

Ich konzentriere mich bei den nachfolgenden Beispielen besonders auf die Dinge, mit denen die KI immer schwer zu kämpfen hatte und die nun langsam auf Spur kommen. So war die Faustregel bisher: KI kann keine Hände und keine Texte.

Fangen wir mit den Texten an. Natürlich kann MidJourney sehr atmosphärische Bilder einer Pizzeria bei Nacht erzeugen – aber die Neonschilder richtig zu beschriften überfordert den Algo (Prompt jeweils in Klammern):

(a pizza parlor in London at night with neon signs)

Ich habe nicht wirklich viel von ChatGPT 4o erwartet und bin umso überraschter, was er nach Eingabe desselben Prompts auswirft:

Hier stimmen nicht nur die Texte, auch das Neonschild der Pizza ist perfekt getroffen. Zoomt man sich in die Original-Version hinein, erkennt man auch, wie fotorealistisch das Innere der Pizzeria und der Bürgersteig dargestellt sind.

Es lässt sich allerdings nicht bestreiten, dass das Bild von MidJourney erheblich dynamischer und lebendiger wirkt. Die ChatGPT-Kreation verbreitet eine Atmosphäre von "liminal space".

Ich bin beeindruckt und erhöhe den Schwierigkeitsgrad durch Hinzufügung einer spezifischen Ära mit ganz eigenen Herausforderungen. MidJourney leistet den üblichen Dienst nach Vorschrift: sehr atmosphärisch, aber bei allen Beschriftungen komplett neben der Spur.

(vintage picture of a movie theater in New York in the 70s)

ChatGPT setzt wieder auf eine relativ banale und unkreative Umsetzung – recherchiert aber zu meiner Überraschung sogar der Ära angepasste Filmtitel!

Ästhetisch gefällt mir die MidJourney-Version besser, aber wenn es um die schnelle, grammatikalisch korrekte Repräsentation des gewünschten Motivs geht, verlangt ChatGPT augenscheinlich weniger händische Nacharbeit.

Das zweite Handicap (pun intended) von KI-Bildern sind bekanntermaßen die Hände. Selbst hochwerte Modelle produzieren verkrüppelte oder verzerrte Finger, gerne auch in unkonventionellen Mengen:

(a man showing his hand with his fingers spread)

ChatGPT scheint auch dieses Problem weitgehend gelöst zu haben, auch wenn es für ein endgültiges Urteil noch viele weitere Testläufe braucht:

Keine Überraschung: Wieder ist MidJourney sehr daran interessiert, das Bild künstlerisch umzusetzen, während ChatGPT nur das absolut Notwendige liefert.

Es ist bekannt, dass die KI nicht nur inhärente technische Probleme bei bestimmten Darstellungen hat, sondern dass sie auch massiv hinter den Kulissen zensiert wird. Das kann politische Gründe haben, aber gerne werden auch der Jugendschutz oder das Recht am eigenen Bild vorgeschoben. So war es in den ersten Jahren unmöglich, eine halbwegs erkennbare Form von Handfeuerwaffe zu generieren:

Aus diesem Grund wollte ich ChatGPT auch dahingehend testen.

(a monochrome picture of a 30s-style hoodlum shooting his tommy gun)

Das ist tatsächlich eine erkennbare tommy gun mit Trommelmagazin und der Typ schießt auch glaubhaft damit. Platzhirsch MidJourney tut sich mit dem gleichen Prompt deutlich schwerer und will auch kein Mündungsfeuer zeigen:

Dass dieses Bild in Sachen Dramatik und Spannung überzeugt? Geschenkt.

Und schließlich: bekannte Gesichter. Die Aufgabe, Bilder von der Prominenz zu erzeugen, ist immer stark an die Menge an verfügbaren Fotos gekoppelt, mit der die KI gefüttert werden konnte. Hier scheint die KI sogar absichtlich in den letzten Jahren gedrosselt worden zu sein, damit kein Schindluder getrieben wird.

Es ist kein Problem, ein Bild von Nicole Kidman zu generieren. Die Frau ist oft genug fotografiert worden. Darum habe ich die Aufgabe etwas schwerer gemacht durch den Zusatz "im Alter von 25". MidJourney produziert zwar Abbildungen mit künstlerischem Anspruch, aber ist das hier WIRKLICH Nicole Kidman?!

(Nicole Kidman at age 25)

Ich würde sagen: Es ist eine junge Frau, die Nicole Kidman ähnlich sieht.

ChatGPT mit Modell 4o kann hier in jeder Beziehung punkten:

Das ist die Kidman, wie man sie aus DAYS OF THUNDER und FAR AND AWAY kennt, inklusive der damals noch aggressiv lockigen Haarpracht.

So kann ich zumindest basierend auf diesen Experimenten sagen, dass ChatGPT deutlich weniger klassische KI-Fehler macht, aber keine besonders dramatischen oder kreativen Bilder produziert.

Zeit, den Schwierigkeitsgrad mal ein bisschen aufzudrehen. Lassen wir der KI einen breiten Spielraum, den Prompt zu interpretieren – und zu scheitern. Tatsächlich kann ChatGPT selbst eine abstrakte Anfrage korrekt umsetzen.

(God and the Devil are playing chess in an abstract colorful universe. There are no regular chess figures on the board. Instead, they are playing with different types of model race cars)

MidJourney hingegen produziert kein einziges brauchbares Ergebnis unter seinen vier Vorschlägen – hier nur eines als Beispiel:

Weiter geht’s. ChatGPT kann mittlerweile nicht nur Grafiken und Logos erstellen, sondern diese auch als Freisteller mit transparentem Hintergrund bereitstellen – dem .png-Format sei Dank. Bei diesen Anforderungen kann gerade die bisher oft monierte Fokussierung auf den Prompt des Users hilfreich sein.

Wenn ChatGPT eine etwas vage Anfrage bekommt, greift die KI nicht nur auf den vorgegebenen Datensatz zu, sondern recherchiert im Netz. Das ermöglicht komplexere Grafiken, die Zahlen und Fakten inkorporieren. Mit dieser Fähigkeit werden gerade kleinere Redaktionen viel Geld beim Layouter sparen können.

(a graphic comparing the size of the different Volkswagen Golf version in chronological order)

Ja, man kann über die Größenverhältnisse diskutieren. Die Beschriftung stimmt auch nicht. Aber das lässt sich im direkten Austausch mit der KI anpassen. Der Weg stimmt. MidJourney spuckt zum gleichen Prompt nur Unfug aus:

Kommen wir zu einer der letzten großen Anpassungen, die wir Modell 4o verdanken – dem Dialogmodus. Die KI generiert nicht mehr stumpf ein Bild, das wir mit immer neuen Variationen unseres Prompts irgendwie so hinbiegen müssen, dass es am Ende unseren Erwartungen entspricht. Stattdessen nimmt die KI das erste Bild als Grundlage und wir brauchen nur noch die gewünschten Änderungen kommunizieren.

Als Beispiel habe ich dafür dieses Bild von mir rausgesucht:

Ich bat ChatGPT, das Foto in einen Cartoon umzuwandeln.

(turn the photo into a colorful cartoon with simple lines, preserving the general character of the man in the picture)

Das gefällt mir schon sehr gut und es fällt auf, dass die KI sogar die Beschriftungen auf den Behältern für die Kaffeebohnen halbwegs korrekt abgelesen hat. Allerdings fühle ich mich nicht gut getroffen und bitte um eine zweite Version.

(make the face a bit more oval and try to represent it more accurately in the cartoon)

Das ist immer noch nicht perfekt, aber schon näher dran. Es sei um der Fairness halber erwähnt, dass MidJourney eine ähnliche Funktion namens "draft modus" besitzt, die ich sehr zu schätzen weiß.

Das klingt jetzt alles ein bisschen parteiisch, als wollte ich die Leistung von ChatGPT in den Himmel loben. Dem ist nicht so. Ästhetisch gefallen mir die Ergebnisse von MidJourney immer noch besser und sobald man dort einen Weg gefunden hat, Hände und Texte besser umzusetzen, werden sich die Präferenzen auch schnell wieder verschieben.

Es ist auch nicht alles eitel Sonnenschein. Bei einem Experiment hat ChatGPT (unter meiner Mithilfe) total versagt. Ich wollte nämlich mal um ein Bild bitten, dessen gesamte Idee etwas abstrakt ist. Es stammt aus einem Beitrag von 2013 aus dem Kontext einer Reise nach Manchester:

Meine Idee war, das Blatt mit dem Hilferuf durch eine kleinere Version des gesamten Bildes zu ersetzen und darauf das Blatt wieder mit einer kleineren Version des Bildes. Also ein Blick in die Unendlichkeit, soweit die Auflösung das zulässt. Ich habe das mal ganz grob händisch in Pixelmator gebastelt:

Vielleicht habe ich mich unklar ausgedrückt, vielleicht kommt die KI mit dem Konzept nicht klar, aber das Ergebnis repliziert so ziemlich alle Fehler, die man der KI gerne unterstellt, um sie zu diskreditieren:

(replace the sign in the hands of the man with a smaller version of the whole pictures. Then, replace the sign in the smaller picture with an even smaller version of the picture. Keep doing this two more times, creating the illusion of infinity)

Nightmare fuel! Es ist zudem offensichtlich, dass die KI nicht erkannt hat, dass sie nicht auf die vorher generierte Grafik zurückgreifen soll.

Win some, lose some.

Nichtsdestotrotz ist die Entwicklung weiterhin hoch spannend. In einem meiner ersten Artikel zum Thema KI habe ich vor drei Jahren (!) geschrieben:

Dabei ist die Artwork ist nur eine der vielen Seiten, auf der die KI aktuell die Kreativen der Welt angreift. Komponisten, Schauspieler, Autoren, Übersetzer – sie alle haben keinen Grund, sich in ihre Sessel zurück zu lehnen und zu denken "bin ich froh, dass ich kein Grafiker geworden bin". You are not safe.

Das hat sich bewahrheitet – und ist immer noch erst der Anfang.

 



Abonnieren
Benachrichtige mich bei
guest

4 Kommentare
Älteste
Neueste
Inline Feedbacks
Alle Kommentare anzeigen
noyse
noyse
11. April, 2025 11:56

"Besonders gespannt sehe ich den Agenten entgegen, die für mich aktiv Prozesse anschieben können." dafür gibt es jetzt manus.im hier nochmal das aktuelle Ergebnis zu deinem FFF Prompt in Manus. vermutlich muss man dann noch die Stadt spezifizieren, wenn das Filmprogramm scharf geschaltet wird: https://manus.im/share/noVKDRLKZvu0lvKhTknJFv?replay=1