Kernschmelze: 2023. AI is about to explode…
Themen: Künstliche Intelligenz, Neues |Ich wollte heute erstmal die neue Filmverbrechen-Fotostory fertig machen. Aber ich komme weiterhin am Thema Künstliche Intelligenz nicht vorbei – es gibt links in der Seitenleiste nun auch eine eigene Kategorie dazu.
Ehrlich gesagt war/bin ich enttäuscht von vielen Menschen, mit denen ich in den letzten Wochen über das Thema gesprochen habe. Die mangelnde Fähigkeit, aus dem Ist-Zustand die weitere Entwicklung zu extrapolieren, war ein wiederkehrendes Merkmal der Diskussionen. Man schloss sehr schnell aus den aktuellen Defiziten der KI auf die generellen Defizite der KI – und die Geschwindigkeit der Weiterentwicklung wurde dabei völlig ausgeblendet.
Das ist ungefähr so, als hätte man Anfang des vorigen Jahrhunderts die Erfindung des Automobils folgendermaßen kommentiert: "Ist ja ganz nett, aber wie soll das für eine breite Masse funktionieren? Sobald der Treibstoff ausgeht, steht man in der Wüste. Es hat keine Laterne, bietet keinen Schutz, und niemand außer dem Erfinder kann es reparieren. Wertlose Spielerei!"
Die Politik tut sich ebenfalls schwer, mit der Entwicklung Schritt zu halten.
KI begleitet mich mittlerweile auf Schritt und Tritt: Am Münchner Flughafen habe ich ein Werbemotiv für ein Café gesehen, das offensichtlich mit DALL-E erzeugt wurde, und immer mehr YouTube-Videos lassen sich Vorschaubilder u.a. von MidJourney kreieren:
Die letzte Woche hat bewiesen, dass die KI sich a) mit rasender Geschwindigkeit verbessert und dass sie b) auch immer allgegenwärtiger wird und sich teilweise schon in Software und Services einnistet, wo sie ihre Arbeit unauffällig versieht.
Wer es genauer wissen will, kann sich die Updates hier erklären lassen:
Ich bin (aus ganz anderen Gründen) vor ein paar Wochen auf EDGE umgestiegen, die Chrome-Browser-Variante von Microsoft (dazu beizeiten mehr). Hier ist ChatGPT bereits als Teil von Bing nutzbar:
Die Suchmaschine nicht mehr als Eingabe von Stichworten und Ausgabe von Link-Listen, sondern als Dialog zwischen Mensch und Maschine. Faszinierend.
KI wird nicht, KI KANN BEREITS brauchbare Texte schreiben, Musik komponieren, Bilder malen, Stimmen imitieren und Interviews transkribieren – und in naher Zukunft wird sie alle diese Talente kombinieren lernen.
Konzentrieren möchte ich mich wieder auf MidJourney, weil diese Anwendung auch für Laien die sichtbarsten und deutlichsten Verbesserungen erfahren hat. Mit der Freigabe von V5 ist ein neues Level erreicht. Um das zu verdeutlichen, habe ich ein paar Beispiele mit der alten und der neuen Engine produziert.
Aus beruflichen Gründen interessiert mich die Fähigkeit der KI, Speisen und Getränke in einem natürlichen Setting fotorealistisch darzustellen. MidJourney humpelte z.B. DALL-E in diesem Bereich deutlich hinterher und lieferte Illustrationen ab, die ein vages Verständnis z.B. von "Erdbeertorten" aufzeigten:
V5 macht da ein ganz anderes Fass auf – haltet euch fest:
Natürlich ist das immer noch nicht perfekt – manchmal sehen die Erdbeeren verdächtig nach Himbeeren aus -, aber es ist dennoch ein Quantensprung.
Es ist Teil der Faszination, dass man die Eingaben mittlerweile auch in natürlicher Sprache und auf Deutsch machen kann.
Ich sehe einen interessanten Wettlauf auf uns zukommen: Wird zuerst die Text-KI ein Rezept zu solchen Torten entwickeln können, oder wird die Bild-KI aus einem beliebigen Rezept das Endergebnis errechnen?
Für Frauen- und Kochzeitschriften ist es mitunter nötig, solche Bilder zu beleben – also fragen wir die alte Version MJ mal nach Käsekuchen und Kindern:
Abgeschnittene Oberkörper und Zombieblicke, dazu gigantische Kuchen (?) – das erzeugt mehr Grusel als Genuss. Version 5 to the rescue!
Wer braucht da noch Kindermodels oder Bildfreigaben? Wenn man genau hinguckt, sieht man noch Schwächen bei den anatomischen Details, aber die bisherige monströse Missbildung von Händen und Haltung gehört weitgehend der Vergangenheit an. Wie ich es prophezeit hatte.
Die LvA, sehr versiert in Sachen Food-Fotografie, hat mir mal erzählt, dass Lasagne sehr schwer zu fotografieren sei, weil die Schichten aus Hack, Bechamel und Nudelteig nach der Entnahme aus der Auflaufform und dem Anschnitt halt immer einen unästhetischen Matsch bilden (ein gutes Beispiel hier). Da müht man sich Stunden mit Pinzette und Pipette, alles wieder attraktiv herzurichten. MidJourney hingegen sagt einfach "halt mal mein Bier":
Fragte man MidJourney nach "Johnny Depp", kamen noch vor zwei Monaten die üblichen Zeichnungen im typischen MJ-Stil dabei raus:
Version 5 hingegen generiert die KI Porträtfotos, die auch in Hochglanzzeitschriften nicht fehl am Platz wären:
Wir stellen fest: MidJourney hat sich von den Illustrationen, die bisher seine Stärke waren, weit entfernt und kann nun Ergebnisse liefern, die sich von Fotoaufnahmen kaum noch unterscheiden lassen. Das wirft natürlich die Frage auf: Wie sieht es mit den Persönlichkeitsrechten aus? Muss sich Johnny Depp gefallen lassen, dass ein digitales Double für ihn einspringt? Kann er klagen, wenn jemand bei MidJourney z.B. "Johnny Depp als Barbie-Puppe" eingibt?
Dieses Bild ist übrigens das Ergebnis eines launigen Chats mit der Tochter von Freunden, die mich mit absurden Anfragen an die KI bombardierte. Habt ihr euch jemals gefragt, was aus Michael Jackson geworden wäre, wenn er nicht Sänger, sondern Buchhalter geworden wäre? MidJourney weiß die Antwort:
Trump als zugekiffter Althippie? Kein Problem:
Ein Freund aus dem Bereich Städteplanung hatte auch noch eine spannende Herausforderung für MidJourney: "New York als Fachwerkstadt". Bitteschön:
Die Verbesserung der KI in Sachen Realitätsnähe lässt sich auch schön an der Eingabe "Cowboy" illustrieren, die bisher solche Resultate auswarf:
Ästhetisch ja, aber nicht fotorealistisch. V5 kann das erheblich besser:
Es gilt allerdings auch weiterhin: die Maschine lügt. So sind diese Ansichten von Paris stilistisch wie ästhetisch extrem gelungen, aber eine nähere Betrachtung offenbart, dass es sich nur eine fiktionale Annäherung an die französische Hauptstadt handelt:
Nun ist Realismus nicht der einzige Leistungsmaßstab – die KI zeichnet sich ja gerade dadurch aus, dass sie auch "Kunst kann". So habe ich um ein gigantisches Reptil gebeten, das London angreift. Das Ergebnis ist eines Filmplakats würdig:
Einer meiner Favoriten ist immer noch dieser putzige Cartoon von Batman als kleinem Steppke:
Lässt sich auch noch prima als Kätzchen verniedlichen:
Das sind natürlich primär gelungene Beispiele. Hakelig wird es, wenn man weniger bekannte Persönlichkeiten oder politisch fragwürdige Elemente generieren möchte. Ich bin ziemlich sicher, dass MidJourney sich im Hintergrund ausgiebig selbst kastriert, um bestimmte Elemente, Personen oder Franchises NICHT korrekt darzustellen. So weiß eigentlich jeder, wer die klassischen Universal-Monster waren (Frankensteins Monster, Dracula, die Mumie, der Werwolf, etc.). Aber der Versuch eines KI-Gruppenfotos endet im Desaster:
Who ARE these people?!
Dennoch: Was momentan noch ein großer Spielplatz ist, wird unsere Zukunft verändern und prägen – und neue gesellschaftliche Fragen aufwerfen. Wem gehört was? Wer darf was? Wer ist verantwortlich? Was ist erlaubt? Was muss verboten bleiben? Was wird sich nicht verhindern lassen?
Mittlerweile ist eine regelrechte Goldgräberstimmung ausgebrochen – man kann erprobte Sammlungen von Texteingaben kaufen, Verlage suchen Redakteure für die Generierung von KI-Texten, obskure Coaches versprechen schnelles Geld mit KI-Geschäftsmodellen, und DeepFakes imitieren Prominente und Pornostars.
Und das ist alles erst (und immer noch) der Anfang…
> Habt ihr euch jemals gefragt, was aus Michael Jackson geworden wäre, wenn er nicht Sänger, sondern Buchhalter geworden wäre? MidJourney weiß die Antwort
Inkl. toter Blick in den Augen. Das scheint etwas zu sein, das Bilder von Buchhaltern gemein zu haben scheinen, dass es die KI als relevant für die Erzeugung ansieht.
Beeindruckendes Update. Und ja, die Disruption kommt ganz, ganz schnell. Wer das anders sieht, ist mindestens auf einem Auge blind.
(Auch wenn noch fundamentale Rechtsfragen, v.a. urheberrechtlicher Natur, bestehen. Und CHatGPT "lustige" Fehler macht.)
Ich bin Maskenbildner und genieße es zu modellieren, Formen zu bauen und meine Ideen zeichnerisch darstellen zu können, mit meinen eigenen Händen!
Ich bin bei diesem Thema sehr zwiegespalten, ich sehe AI als Werkzeug um schneller und effizienter zu arbeiten aber auch die Gefahr das Menschen dadurch immer weniger haptische Erfahrungen machen werden.
Das in einerGegenwart, in der unsere Jugend eh nur noch an Medien und nicht an der Realität draußen interessiert ist.
Wo ist Sarah Connor wenn man sie braucht!
Das Problem kennen wir ja seit ca. 1994, als die Stop Motion von der CGI verdrängt wurde – und danach die Matte Paintings, die Creatures, die Modelle, etc. …
Keine Ahnung, ob man tatsächlich die Fähigkeiten bezüglich Franchises künstlich beschneidet, aber ich finde es bemerkenswert dass Rule 34 noch nicht zur Anwendung gekommen ist. Lange kann es nicht mehr dauern.
Liegt hauptsächlich daran, dass die öffentlich zugänglichen Plattformen hier schon einen Riegel vorgeschoben haben. Es gibt aber 100%ig schon Cracks oder anderes.
Wer Rule 34 zitiert sollte eigentlich wissen das man auf diese niemals warten muss, die ist immer Vorreiter. Das Stichwort lautet hier "Unstable Diffusion" (Discord), lässt sich aber wohl eher nicht hier im Blog darstellen ;-).
Da hier im Blog ja schon häufiger Playboy Fotos gepostet wurden, mal etwas ähnliches von UD:
dito
Da mir Google gerne die Monetarisierung einzelner Beiträge auf der Basis solcher Bilder sperrt, würde ich für die Zukunft bitten, vorher zu fragen. Ich lasse das jetzt mal stehen und schaue, was passiert.
Faszinierend. Schon jetzt finde ich diese Clickbaitstrecken nervig, welche Autos oder Immobilien irgendwelche Prominenten angeblich angehäuft haben. Eine Weiterentwicklung wäre gefakete Bilder oder gar Videos in verfänglichen Settings. Wäre? Moment, gibt es ja bereits. Was macht eine Politikerin, wenn sie gegen zuviele solcher Angriffe sich gar nicht mehr wehren kann? Wie wird die Gesellschaft damit umgehen, wenn Opfer von KI-Fake news sich selbst richten? Nur eine spinnerte Idee, es ist wichtig, auch die Möglichkeiten zu sehen und nicht nur die Gefahren.
Ich hatte jetzt wo ChatGPT mit dem Edge so einfach verfügbar ist damit mal ein bisschen rumexperimentiert – ich bin etwas mindblown.
Das ist wirklich schon ziemlich "krass" was das ding kann und wie du richtig schreibst, wir sind gerade am absoluten Anfang.
Allerdings wird es jetzt schneller weitergehen als viele denken da die technische Leistung nicht mehr das ganz große hinderniss ist sondern eher Code etc
Ich kann die moralischen und praktischen Bedenken die hier in den Kommentaren geschrieben wurden gut verstehen – nur wird sich davon so eine Technik nicht aufhalten lassen. Wir müssen herausfinden wie unsere Gesellschaft mit dieser Technik gut umgeht, wie wir uns im Umgang mit ihr Grenzen setzen und wie wir gefahren ausweichen oder zumindest abmildern können.
Aber die Köpfe, wie so oft, in den Sand stecken und sagen "Mag ich nicht, am besten verbieten oder so" wird – wie immer – nicht funktionieren.
Nachdem ich immer wieder auf diese Bilder von Midjourney gestoßen werde, habe ich mir auch mal Discord installiert und etwas herumgespielt. Nun stelle ich allerdings fest, daß Midjourney sich wohl für reine Phantasiebilder eignet, aber nicht für Bilder, die reale Gegebenheiten nutzen. Er mag zwar wissen, daß New York aus Hochhäusern besteht und daß in Paris ein Eifelturm steht, aber sonst weiß er recht wenig.
Ich habe als Prompt mal eingegeben "Die Wuppertaler Schwebebahn verkehrt an der Schlanken Mathilde in Dortmund-Hörde", heraus kamen jedoch unterschiedliche Photos von Straßenbahnwagen. Nun mag die Schlanke Mathilde trotz Photo im Wikipedia-Artikel "Hörde" überregional vielleicht wenig bekannt sein. Aber daß Midjourney offenbar auch mit dem Begriff "Wuppertaler Schwebebahn" nichts anfangen kann, finde ich überraschend. Das Web ist doch voll mit Bildern der Wuppertaler Schwebebahn!
Unter den Ergebnissen ist ein Photo von einer Straßenbahn unter einem Kran, das mir in seiner Bildkomposition sehr bekannt vorkommt. Ich glaube, hier (farblich und in den Proportionen verfremdet) ein bekanntes Bild einer Dortmunder Straßenbahn unter einem Hafenkran aus den 70er-Jahren wiederzuerkennen. Ob ich daraus schließen kann, daß dieses Bild aus den 70ern zum Trainingsmaterial gehört hat?
Ich habe auch mal versucht, Midjourney mit gezielten Anweisungen zu einem Bild zu bewegen, was deutsche Besonderheiten zeigt. Mein Prompt "Typische deutsche Bushaltestelle mit dem Haltestellenzeichen nach deutscher Straßenverkehrsordnung mit grünem Buchstaben 'H'" zeigte mit Bilder von Schildern mit Buchstabenfragmenten, aber nichts davon war grün, und vom deutschen Haltestellenschild war alles weit entfernt. Im Gegensatz zu den in diesem Blogpost erwähnten Universal-Monster wären Verkehrszeichnen ja sogar gemeinfrei. Es gibt also wohl keine Selbstkastrierung, wie hier vermutet, sondern es wird wohl doch eher daran liegen, daß Midjourney sowohl die Universal-Monster als auch die deutschen Verkehrszeichen gar nicht kennt.
Ich wollte dann auch mal wissen, was Midjourney mit Prompts macht, die man eigentlich gar nicht zeichnen kann und habe als Prompt eingegeben "Gibt es unendlich viele Primzahlzwillige?". Heraus kamen merkwürdige Phantasy-Bilder, u.a. ein alter Hirte mit einer seltsam verfremdeten Kuh. Ich hätte mich gerne mit Midjourney darüber unterhalten, wie dieses Bild zustande gekommen ist, aber ich kann der KI ja leider keine Fragen stellen – da unterscheidet sich die KI doch deutlich von einem menschlichen Zeichner.
Man kann mutwillig versuchen, MidJourney ein Bein zu stellen, das ist richtig. MidJourney kann keine Buchstaben oder Texte, das ist richtig. MidJourney kennt natürlich die Universal Monster, das ist falsch. Und alle Defizite werden zeitnah ausgebügelt, das ist absehbar.
Bezüglich KI in Sachen ChatGPT hier ein sehr interessantes Video des VLOGs Raumzeit
https://www.youtube.com/watch?v=94HjPQs_kJQ
und eines über Chat 4
https://www.youtube.com/watch?v=yu1nwnsijFM
Ein erneuter Beitrag von Raumzeit über Chat-4.
https://www.youtube.com/watch?v=4la577rGThE
Die Bedeutung der genannten Studie kann nicht überschätzt werden.
Ich bin da einfach nur geflasht, auch und gerade von der Geschwindigkeit.
Beruflich wird es für mich dadurch wahrscheinlich einfacher, genau DAS Foto für die Einladungskarte oder das Plakat zu finden, das dem Kunden vor Augen schwebt.
Eine Zeit lang werden sich immer mehr detailfreudige bunte Abbildungen auch in die Direktwerbung (Fahrzeuge und Plakatwände etc) schleichen, das hatten wir schon mal als der Großformatdigitaldruck bezahlbar wurde, bis dem Kunden dann auffällt dass er sich durch Minimalismus und klare Strukturen besser und leichter identifizierbar abhebt.
Ich möchte da wie Kind nachts durchs Spielwarengeschäft hüpfen und Illustrationen aus Worten entstehen lassen.
Wie sich dadurch die betroffenen Berufsgruppen verändern kann ich nicht mal ansatzweise erahnen.
Die Digitalkameras hatten den Kameramarkt über Nacht in Schutt und Asche gelegt; jetzt hat jeder eine noch bessere Kamera direkt im Smartphone und die "echten" Kameras sind zurück, hochpreisig und geachtet, Phoenix aus der Asche.
Es wird spannend, welches "Feld" hier zuerst kollabiert und was davon der Diamant im Inneren ist, der Bleibt und mehr strahlt als zuvor.
PS: mach mal bitte Johnny Depp als Ken-Puppe
beim lesen hab ich an das video von tom scott denken müssen, welches, wie ich gerade gesehen habe, nach einem monat mehr als 5 mio views hat
ich finde es sehr unterhaltsam/nachdenklich machend 🙂
https://youtu.be/jPhJbKBuNnA
Auch interessant zum Thema KI im Bereich Musik:
FROSTBITE ORCKINGS
Das ist erschreckend dicht an manchem, was veröffentlicht wird. Wäre in anderen Musikgenres auch einfach möglich, ich glaube nicht das eine KI viel Rechenleistung für ein neues Amigos-Album braucht
Ich habe ChatGPT in Edge gerade mal gebeten, einen typischen Fantasy-Metal-Song zu schreiben. Passt:
Verse 1:
The dragon’s fire burns bright
As we march into the night
Our swords held high
We’ll fight until we die
Chorus:
We are warriors of the night
Our hearts filled with might
We’ll slay the beasts and demons
And bring peace to our kingdom
Verse 2:
The battle rages on
Until the break of dawn
Our armor stained with blood
As we stand where heroes stood
Chorus:
We are warriors of the night
Our hearts filled with might
We’ll slay the beasts and demons
And bring peace to our kingdom
Bridge:
With every breath we take
Our souls will never break
We’ll fight until the end
And never bend or bend
Chorus:
We are warriors of the night
Our hearts filled with might
We’ll slay the beasts and demons
And bring peace to our kingdom
Wenn ich das richtig verstanden habe ist die Song aber komplett KI generiert, nicht nur der der Text, und auch von der KI eingespielt
Das habe ich ja auch nicht bestritten.
Sorry, dann hatte ich dich falsch verstanden.
In Sachen Stimmreproduktion ist die KI schon sehr weit. Klingt das für jemanden noch unecht?
https://www.youtube.com/watch?v=6dtSqhYhcrs
Nebenbei bemerkt ein hübsches Sci-Fi-Kurzfilm. Die Pointe, dass Wesen von außen allesamt Heilsbringer sind, ist zwar diskussionswürdig. Aber die finale Message passt.
Jau, hatte ich auf Facebook auch schon drauf verwiesen.
Werden die Filminfos bei Amazon automatisch erzeugt oder wie kann es zu so einem Text kommen? Eine KI würde das inzwischen besser hinbekommen oder?
Das riecht schwer nach einer automatischen (schlechten) Übersetzung.
Oder es war KI’s Opa. Wobei "I" nirgendwo zu finden ist!
Nur weil der jetzige Heizkörper "besser" wärmt als ein Lagerfeuer ist ersteres nicht intelligent.