Echt oder Fake?

"Ist dieses Bild echt oder nicht?" Mit dieser Frage wurde ich in letzter Zeit oft konfrontiert, und allzu oft lag ich falsch. In den letzten Monaten haben generative KI-Modelle einen großen Schritt in Richtung der Erzeugung fotorealistischer Bilder gemacht. So sehr, dass selbst professionelle Fotografen oft nicht mehr unterscheiden können, ob ein Bild echt oder unecht ist, wie ich in meinem Blogpost vom April geschrieben habe.

Das letzte Mal, dass ich mich von der Leistungsfähigkeit der heutigen KI-Modelle überzeugen konnte, war bei einem Vortrag von Julian van Dieken. Van Dieken wurde durch sein Bild "Das Mädchen mit dem Perlenohrring" bekannt, das den Wettbewerb gewann, bei dem ein temporärer Ersatz für Vermeers gleichnamiges Gemälde gesucht wurde. Der Grund für den viralen Erfolg seiner Arbeit war die Art und Weise, wie er sein Bild geschaffen hat: Anstatt ein Foto oder ein Gemälde zu einzureichen, hat Van Dieken mit einem KI-Bild gewonnen!

Was mich an seiner Version (das obige Bild auf der linken Seite, https://shorturl.at/sFWY6) am meisten fasziniert, ist, wie realistisch es wirkt. Insbesondere die Beleuchtung und die feinen Details des Porträts haben mich zunächst glauben lassen, dass es sich um ein echtes Bild handelt. In den 90 Minuten von Van Diekens Vortrag habe ich dann nicht nur überraschend realistische KI-Porträts gesehen, sondern auch etwas über den Workflow eines KI-Künstlers gelernt. Van Dieken erzählte, dass er eine Kombination aus Midjourney, einem KI-Modell, und Photoshop verwendet hat, um seine Version von "Das Mädchen mit dem Perlenohrring" zu erstellen.

Nach dem Vortrag war mir klar, dass ich Midjourney selbst ausprobieren musste. Ich war neugierig herauszufinden, wie einfach es ist, realistische Ergebnisse zu erzielen, und an welchem Punkt die Technologie versagen würde. Und: Nachdem ich vor allem Bilder von Menschen gesehen habe, die von Midjourney erzeugt wurden, war ich gespannt, wie realistisch Naturaufnahmen werden würden.

Von Text zu Bild in Sekunden

Das Erste, was mir bei der Nutzung von Midjourney aufgefallen ist, war, wie einfach die ganze Bildgenerierung ist. Nachdem ich Midjourney abonniert und mich auf dem Discord-Server registriert hatte (eine Chat-Plattform, die normalerweise von Gamern genutzt wird), konnte ich mit dem Midjourney-Bot kommunizieren. Ich habe einen "Prompt" (das passendste deutsche Wort wäre wahrscheinlich Eingabeaufforderung, uff!) in der Form "/imagine <Schlüsselwörter, die das gewünschte Bild beschreiben>" geschrieben, die Eingabetaste gedrückt, und nach einigen Sekunden hatte ich mein erstes Bild.

Nachdem ich mit verschiedenen Schlüsselwörtern und Stilen herumgespielt habe, habe ich schnell gelernt, dass es aktuell noch sehr schwer ist, die resultierenden Bilder nach den eigenen Vorstellungen zu beeinflussen. Das gilt vor allem, wenn man einen bestimmten Stil oder ein bestimmtes Bild im Kopf hat. Einen Weg um das zu umgehen kann man am besten mit "Beschreiben und Prompten" bezeichnen. Anstatt mit dem Schreiben eines Text-Prompts zu beginnen, lädt man ein Bild in den Discord-Kanal und lässt dieses mit Midjourney's "/describe"-Befehl beschreiben. Anschließend kopiert man die zurückgegebene Beschreibung und fügt sie in eine "/imagine"-Befehl ein, um ein neues Bild zu erzeugen.

Nachdem man den “/imagine”-Prompt ausgeführt hat, kann man zwischen vier Bildern wählen, die mehr oder weniger ähnlich sind, je nachdem wie detailliert der Prompt ist. Du hast die Möglichkeit, jedes einzelne Bild hochzuskalieren (U1 - U4), Variationen von jedem Bild zu erstellen (V1 - V4) oder denselben Befehl erneut auszuführen (es kommen immer leichte Variationen beim gleichen Befehl). Ein Beispiel für dieses Vorgehen siehst du in den beiden folgenden Screenshots.

Und was soll ich sagen: Vor allem farblich und von der Komposition her sind die resultierenden Bilder hervorragend! Das Titelbild dieses Beitrags stammt direkt aus Midjourney, abgesehen von dem Zuschnitt und Anpassungen hinsichtlich der Details und Klarheit des Bildes.

Apropos Details: Hier sehe ich meiner Meinung nach den größten Raum für Verbesserungen. Nicht nur ist die Auflösung, die man aus Midjourney erhält (1344 × 896 Pixel), relativ gering, auch die Details zeigen oft seltsame, schachbrettartige Strukturen. Das kann man im obigen Bild am besten an den Blättern der Bäume und dem Gras im Vordergrund sehen.

Gleichzeitig muss man bedenken, dass generative KI-Modelle gerade erst begonnen haben, brauchbare Bilder zu produzieren (Stand: Mai 2023). Diesen Punkt hat auch Julian Van Dieken in seinem Vortrag betont. Er meinte, dass der derzeitige Stand der KI-Modelle zur Bilderzeugung mit dem Stand der ersten Nokia-Handys Ende der 1990er Jahre verglichen werden kann und dass es dementsprechend noch viel Raum für Verbesserungen gibt. Ich bin gespannt, wie die erzeugten Bilder aussehen werden, wenn die Entwicklung der KI-Modelle den Stand der heutigen Handys erreicht haben. Die niedrige Bildqualität und seltsam wirkende Details werden dann wohl kein Thema mehr sein.

Von Text zu Gemälde mit Bild-Prompts

Als Nächstes habe ich probiert, Midjourney ein wenig kreativer werden zu lassen. Inspiriert von Van Diekens Erfolg, sein KI-Werk neben anderen berühmten Gemälden im holländischen Mauritshuis-Museum (!) aufhängen zu lassen, habe ich mit Midjourney einige meiner Bilder als impressionistische Werke neu interpretieren lassen. Dafür habe ich ein Bild in den Discord-Channel hochgeladen, einen neuen "/imagine"-Prompt geöffnet und den Link zu dem Bild in den Prompt eingefügt. Noch ein paar Schlüsselwörter wie "woodland, evening, kodak gold, impressionistic painting, monet --ar 3:2" hinzufügen, die Eingabetaste drücken, und los geht’s!

Ein Ergebnis dieses Experiments siehst du oben. Das erste Bild zeigt das generierte impressionistische Bild, das zweite ist das Foto von mir, das ich in dem Bild-Prompt als Ausgangspunkt verwendet habe (das habe ich selbst fotografiert, keine KI). Was mich an dem generierten Bild am meisten begeistert, ist der See im Wald und die Person, die in der Mitte des Bildes steht. Beide sind nicht nur ein toller Blickfang und ziehen mich in das Bild, sondern wurden ohne mein Zutun von Midjourney hinzugefügt. Man könnte fast behaupten, dass Midjourney hier etwas Kreativität gezeigt hat, oder?

Aus eins macht viele

Begeistert von der Qualität der Ergebnisse, die ich mit dem verlinken meiner Bilder im “/imagine”-Prompting erzielt habe, habe ich einige meiner Straßenfotografien benutzt und versucht, Bilder in einem ähnlichen Stil zu generieren. Dafür habe ich wieder meine Fotos in den Discord-Channel hochgeladen und den Link zur Datei sowie ein paar Schlüsselwörter in einen Prompt eingefügt. Der Befehl für das erste Bild unten war zum Beispiel der folgende: <Link zum hochgeladenen Bild> Abstrakte Reflexion, Architektur --v 5.1 --seed 42 --ar 3:2. Unten siehst du zwei generierte Bilder und das jeweilige Bild für den Bild-Prompt (die ich selbst mit einer Kamera aufgenommen habe, ohne KI).

Was kann ich abschließend nach drei Tagen Nutzung under hunderten Prompts über Midjourney sagen (man hat offensichtlich viel Zeit, wenn man krank ist)? Offensichtlich ist, dass Midjourney in der Lage ist, exzellente Ergebnisse zu erzielen. Die Lichtsetzung der Aufnahmen ist meistens hervorragend. Selbst die erzeugten Schatten sehen realistisch aus. Ein eindrucksvolles Beispiel dafür ist die dritte Aufnahme der Straßenfotografie-Serie oben (wirf einen genaueren Blick auf die Schatten des Baumes!). Auch in Bezug auf Farbe und Komposition hatte ich keine Beanstandungen. Folglich sind alle Aufnahmen aus diesem Post direkt aus Midjourney – kein Photoshop, whatsoever. Ich habe bei einigen Aufnahmen lediglich die Belichtung erhöht und die Struktur und Klarheit verringert.

Im Gegensatz zur generellen Komposition bieten die Texturen und feinen Details den meisten Raum für Verbesserungen. Gebäude weisen oft noch seltsame Formen und Details auf, und Eisenbahnschienen haben oft Lücken oder verlaufen ins Nichts. Oh, und falls du Menschen mit einem Bein und drei Armen bevorzugst, wirst du mit Midjourney eine Menge Spaß haben!

Was ich mir am meisten wünsche, ist mehr Kontrolle über den Generierungsprozess zu haben. Bis jetzt ist es hauptsächlich Trial-and-Error, ein anständiges Bild zu bekommen. Ich füge den Link zu einem Bild in den Prompt ein, füge ein paar Schlüsselwörter hinzu und hoffe auf das Beste. Gerne, hätte ich die Möglichkeit mir eine Szene auszudenken, sie zu beschreiben und dann das zu bekommen, was ich mir vorgestellt habe. (Beispiel, dass das so nicht klappt: Midjourney, generiere ein Bild mit zwei Bäumen. Was bekomme ich? Ein Bild von einem Baum.)

Gleichzeitig bin ich aber überzeugt, dass die beschriebenen Mängel nur eine vorübergehende Sache sind. Wenn man sich Midjourney und ähnliche Modelle in ein paar Monaten (oder Wochen?) ansieht, werden die genannten Probleme kein Problem mehr sein. Und wer weiß: Da man mittlerweile offensichtlich Gedanken in Text übersetzen kann, können wir uns dann ja vielleicht eine Szene vorstellen und daraus ein Bild generieren – ohne überhaupt eine Tastatur anfassen zu müssen. Verrückte Zeiten.

Willkommen in der Distopie! Szenen wie aus Blade Runner 2049, generiert mit Midjourney. (Prompt: /imagine brutalism, dystopia, traffic, air pollution, in the style of Blader Runner, dark sky, science fiction, blue hour, 8k, Kodak Ultramax 400 --v 5.1 --seed 42 --ar 3:2)

Previous
Previous

Schweden in Kodak Gold

Next
Next

Buchen und Buchten