Stable Confusion

Blick aus dem Zimmer eines alten verfallenen Holzhauses in einen düsteren Wald. Kerzen geben schwache Beleuchtung.

Hallo, ich grüße Dich! Tritt ein, mach’s Dir bequem. Nimm Platz. Entschuldige bitte die gewisse Unordnung hier. Ich hatte zu tun. Ich habe nämlich Neuland betreten. Und davon will ich Dir ein wenig erzählen…

Von latenter zu stabiler Konfusion

Ich habe kürzlich begonnen, mich für bilderzeugende »KIs« respektive Text-zu-Bild-Generatoren zu interessieren. Das sind Software-Systeme, die auf der Basis von Texteingaben (Prompts) Bilder erzeugen. Ich gebe also in einem Texteingabefeld eine Reihe von Schlagworten oder Zielbegriffen (Tags) ein, und das erzeugende System baut mir daraus ein korrespondierendes Bild.

Vor allen weiteren Erläuterungen: Das macht eine Menge Spaß, aber ist bisweilen auch mal frustrierend. Aber wegen des Spaßes beschäftige ich mich damit.

Wie immer, wenn ich beginne, mich für eine etwas komplexere Materie zu interessieren, steht für mich das Lernen und Verstehen im Vordergrund. Dann bzw. im Zuge dessen kommt die Nutzung respektive, wie jetzt, das Spielerische zum Zug. Ich will zumindest in groben Zügen verstehen, was sich da abspielt, wenn ich »Tags« als Prompt eingebe und ein solches KI-System mir daraus ein Bild generiert.

Im Fall von bilderzeugenden »Text-zu-Bild-Generatoren« (text2image generators) sind es wesentlich mathematische Diffusionsverfahren, die schrittweise algorithmisch aus Rauschen (noise), gesteuert durch den in eine Anzahl von »Token« zerlegten Prompt, ein diesem Prompt gemäßes Bild sozusagen »ent-Rauschen«. Das Rauschen stellt dabei so etwas wie einen latenten Diffusionszustand dar. Das Endergebnis könnte dann wohl stabiler Zustand genannt werden.

Die Basis für die beteiligten mathemathischen Verfahren sind eine möglichst große Zahl an Trainingsdaten in Form von Bild/Text-Paaren. Einige dieser mathematischen Verfahren werden »Deep Learning«- Verfahren genannt.

Konfusion – Diffusion – Verständnis?

Ich bin tatsächlich gehörig weit davon entfernt, wirklich zu verstehen, wie das im Detail funktioniert und was da genau abläuft. Für mich ist das einfach höchst komplexe mathematische Materie. Allerdings, und das ist wichtig:

Intelligenz ist da nirgendwo im Spiel. Abgesehen natürlich von der hohen Intelligenz der Menschen, die in der Lage sind, solche Verfahren zu entwickeln und in für uns anwendbare Software zu packen. Selbst das »Parsing« bzw. das in Token zerlegen und verarbeiten eines Prompts ist ein rein formaler, algorithmischer Vorgang, der gänzlich ohne jedes Sprachverständnis auskommt. Das ist nicht anders als bei sogenannten »Chatbots«, Text-Generatoren. Auch die verstehen keine Sprache, wenn sie einen Prompt verarbeiten und daraufhin eine Text- oder Dialogantwort liefern. Tatsächlich kann man bei (wahrscheinlich) allen Diffusions-Modellen den Prompt in blumiger flüssiger Sprache formulieren oder in durch Kommata getrennten Schlagworten (Tags), es spielt so gut wie keine Rolle für die Verarbeitung. Erkannte Tags werden in Token umgewandelt und in Ketten bestimmter Länge zusammengefasst verarbeitet. Das dürfte übrigens bei »Text-Bots« nicht anders sein.

Modelle

Wie bei Text-Generatoren gibt es auch bei text2image-Generatoren verschiedene »Modelle«. Die durch Medien bekanntesten Modelle sind wahrscheinlich die kommerziellen Midjourney und DALL-E. Neben Varianten der eingesetzten mathematischen Verfahren unterscheiden sich diese Modelle beträchtlich hinsichtlich des eingesetzten Trainingsmaterials. Manche eignen sich besser zur Erzeugung »künstlerischer« Bilder, manche sind gut in fotorealistischer Darstellung, manche beherrschen hervorragend Comic- oder Anime-Bilder, andere eignen sich gut zur Darstellung grafischer, eher regelmäßiger Bildkompositionen. Da ist wirklich für jeden etwas dabei – mich interessieren z.B. hauptsächlich fotorealistische Bilder. Also galt es, einen u.a. dafür geeigneten Generator zu finden.

Stable Diffusion

Das ging recht schnell, meine Wahl fiel auf das Open-Source-Modell Stable Diffusion (SD), das sogar eine deutsche Entwicklung ist. SD kann man in seinen verschiedenen Entwicklungsstufen downloaden und selbst auf dem eigenen PC installieren. Allerdings sollte man schon ein paar Dutzend Gigabyte Festplattenplatz verfügbar haben und eine Grafikkarte der gehobenen Gaming-Klasse – mindestens. Die ablaufenden Rechenprozesse benötigen immens Rechenleistung und Arbeitsspeicher, was beides nur leistungsfähigste Grafikkarten liefern können. Das sind Nvidia- oder Radeon- HighEnd-Karten, die selbst 8, 16 oder mehr Gigabyte Speicher mitbringen, über zwei bis vier eigene Lüfter verfügen und im Preisbereich ab vielleicht 500 € bis deutlich über 1000 € liegen.

Das ist mit meinem Mini-PC ohne Grafiksteckplatz schlicht nicht leistbar, also musste ich eine Möglichkeit finden, über einen Online-Anbieter Zugang zu SD und anderen Modellen zu finden. Erste Versuche habe ich auf der kostenlosen perchance-Plattform unternommen, die wohl Stable Diffusion in der älteren Version 1.5 einsetzt.

Meine jetzige Wahl fiel auf die amerikanische Community-Plattform CivitAI, die zahlreiche auf Stable Diffusion basierende text2image-Generatoren hostet und – vor allem – Enthusiasten die Möglichkeiten bietet, selbst abgewandelte Modelle, Submodelle, ergänzende Modelle (LoRAs, Check- und Merge-Points u.a.m.) zu bauen und mit eigenen Daten zu trainieren.

Einem reinem Anwender wie mir bietet die Plattform zu günstigem Preis Möglichkeiten, eine schiere Unzahl von Modellen auszuprobieren, es eröffnet sich eine kaum überschaubare Spielwiese, mehr oder minder spannende Bilder zu erzeugen und dabei noch eine Menge über diese Welt der Bilderzeugung zu lernen. Die Community dort bietet eine riesige Zahl an bildhaften Showcases, zu was diese Softwaresysteme in der Lage sind, wenn man sie zu nutzen gelernt hat.

Die Frage der Kreativität

Was mich zur schon an zahlreichen Stellen diskutierten Frage bringt, inwieweit das Erzeugen einen digitalen Bildes mittels Eingabe eines Text-Prompts eine kreative Aktivität darstellen kann – von künstlerisch gar nicht zu reden. Dabei ist die Frage des genutzten Handwerkzeuges ganz sicher die uninteressanteste. Pinsel ist nicht per se besser, künstlerischer oder kreativer als Tastatur.

Eine befriedigende Antwort auf diese Frage muss einen – wie ich finde – höchst interessanten Aspekt berücksichtigen, und zwar denjenigen der kreativen Kontrolle.

Wer malt hier eigentlich?

Ich gebe meinen Bild-Wunsch in Form eines (natürlich-sprachlichen) Prompts ein, »die KI« versteht und interpretiert diesen Textprompt und erzeugt demgemäß Pixel für Pixel ein Bild, das meiner Vorstellung entspricht.

Ähh… nein. So funktioniert es leider nicht. Ganz und gar nicht.

Die KI versteht Sprache nicht und interpretiert auch nichts. Der Prompt wird in Ketten (chunks) von Texteinheiten (tokens) zerlegt und dient dergestalt als Verarbeitungsvorgabe für die weiteren Verfahrensschritte, die auf Basis der immensen Datengrundlage aus Bild/Textpaaren in einer vorgegebenen Anzahl von Schritten ein endgültiges Bild herausarbeiten. Sozusagen aus dem Rauschen (noise) entrauschen.

Wie gesagt, ich bin ziemlich weit davon entfernt, zu verstehen, was da genau und wie bei diesen schrittweise aufeinanderfolgenden Prozessen passiert, deswegen meine etwas… diffuse Ausdrucksweise. Selbst eine Reihe gut gemeinter Youtube-Videos konnten mein schwaches Verständnis der Materie kaum auf eine höhere Ebene heben. Ich werde mich aber weiter bemühen, weil es mich einfach interessiert.

Ich erinnerte mich aber an eine Erkenntnis aus der bildenden Kunst, die mir ganz hilfreich erschien:

Man sagt, der große Bildhauer erschafft aus dem Marmorklotz nicht die berühmte Skulptur, denn diese ist schon im Stein enthalten. Seine Kunst besteht darin, sie aus dem Stein herauszuarbeiten.

Analog dazu sind in dem Grund-Bild, das lediglich aus gleichförmigem Rauschen besteht, alle im Diffusionsprozess erschaffbaren Bilder schon enthalten. Prompt, Verfahrensschritte und Datenbasis arbeiten regelbasiert die Ziel-Bilder heraus.

Daraus folgt unter anderem, dass ich als »Künstler«, der den Prompt zusammenstellt, gar keine exakte Kontrolle darüber habe, wie das am Ende erzeugte Bild aussehen wird. Im Gegensatz zum Bildhauer kann ich erstens nicht genügend fein prompten, um das Ziel-Bild exakt zu beschreiben. Zweitens legt auch die mir unbekannte Datenbasis maßgeblich Aspekte des Zielbildes fest. Der Bildhauer dagegen hat ein beliebig genaues Vor-Bild in seiner Vorstellung, auf das er im Schaffensprozess hinarbeitet.

Wenn ich meinen Prompt an die Software »abschicke« und die Anfertigung von z.B. vier Bildern vorgebe, entstehen vier Bilder im Rahmen einer gewissen Kontingenz. Ich werde also immer mehrere Versuche benötigen und gegebenenfalls meinen Prompt optimieren, bis ein Bild erzeugt wird, das meiner Vorstellung weitgehend entspricht.

Komplizenschaft zum Bilde

Es malen also sowohl meine Vorstellung als auch mein Prompt und der text2image-Generator das endgültige Bild. Je präziser ich meine Vorstellung in die Form eines möglichst kurzen und präzisen Prompts fassen kann und je besser das verwendete Modell für mein Ziel geeignet ist, desto besser, desto mehr meiner Vorstellung gemäß wird das resultierende Bild sein.

Ich habe inzwischen mehrfach den hilfreichen Tipp gelesen, dem Generator ruhig gewisse Freiheiten zu lassen – das kann man parameterweise einstellen -, und auch, indem man Vorgaben im Prompt nicht zu präzise zu formulieren versucht. Die erzeugten Ergebnisse sind dann oft befriedigender. Ich kann das inzwischen bestätigen.

Folgendes Beispiel:

Ich stelle mir einen wahrhaft gewaltigen, gefräßigen Drachen vor, der donnernd und drohend in der Landschaft herumstapft und den Leuten gehörig Angst einflößt.

Ich könnte nun versuchen, meine Vorstellung konkreter und möglichst präzise in Worte und in einen präzisen Prompt zu fassen. Oder ich fasse mich kurz und lasse mich überraschen, was das gewählte Diffusions-Modell auf der Basis seines trainierten Datenschatzes »sich einfallen« lässt. Also formuliere ich wie folgt:

fantasy, establishing shot, low angle view,
a huge fearsome dragon lurking at the viewer,
teeth, tongue, steam out of nostrils, eyes glowing, mouth glowing,
1boy, standing in forground, looking at dragon, (fearful:1.2),
meadow, mountains and forest in background, volcano in far background,
late evening, (dramatic lighting:1.3), flat colors, (storm raising:1.2),

Ich lasse drei Bilder erzeugen:

Tatsächlich kommen diese Bilder dem schon ziemlich nah, was ich mir vorstellte. Anders formuliert lasse ich meine Vorstellung so offen, dass möglichst viele realisierte »Bild-Ideen« hineinpassen. Oder blumig ausgedrückt: Der Generator und ich sind sozusagen Komplizen bei der Erschaffung künstlicher Welten. Der formulierte Prompt lässt so viele Freiheiten, dass jedes weitere Bild den vorangegangenen ähnlich, aber nicht gleich sein wird.

Aber ich habe noch mehr Kontrolle, denn ich kann präzisieren und verfeinern. Jedes generierte Bild erhält einen berechneten Parameterwert, einen »seed«, und es gilt die Regularität, dass ein einmal erzeugtes Bild identisch neu erzeugt wird, wenn ich denselben Prompt und denselben Seed vorgebe. Verwende ich denselben »seed« und verändere den Prompt, wird der Generator die Veränderungen im neu erzeugten Bild berücksichtigen. Das kann ich mir zunutze machen und ein für grundsätzlich gut befundenes Bild Schritt für Schritt verändern, um es meiner Vorstellung noch weiter anzunähern. Wobei es noch weitere Parameter gibt, mit deren Hilfe ich den Generator beeinflussen kann.

Kunst? Oder was jetzt?

Die Kunstfrage – die Frage, ob es mit Hilfe von »KI«-Systemen respektive text2image-Generatoren möglich sein kann, Kunstwerke zu schaffen, halte ich eigentlich für ziemlich uninteressant. Zumindest als Diskussion im Rahmen eines traditionellen Kunstbegriffs. Ich pflege sowieso einen eher offenen Kunstbegriff, ohne dass ich künstlerisches Schaffen für mich jemals in Anspruch zu nehmen wagen würde.

Ich sehe aber die Möglichkeit, dass solche Systeme eine neue Form von Kreativität eröffnen – sozusagen in Komplizenschaft mit der Software Bildwerke zu erzeugen, die man mit anderen handwerklichen oder fotografischen Mitteln nicht schaffen kann. Das halte ich für eine durchaus interessante Diskussion. Inwieweit damit Kunst involviert ist, mag jede(r) Interessierte nach Bedarf diskutieren.

Meine persönliche Messlatte hängt allerdings gar nicht so hoch. Mir geht es vor allem darum, dieses neue Metier zu entdecken und Spass mit bisweilen faszinierenden Bildern zu haben, die ich auf andere Weise gar nicht erzeugen könnte. (Ich kann ja nicht einmal eine vernünftige Bleistiftskizze von irgendwas aufs Papier bringen…)

Ein paar weitere Gedanken

Freies und geschütztes Datenmaterial

Interessant und wichtig ist natürlich die Frage, inwieweit sowohl für text2image-Generatoren als auch für textbasierte »Chatbots« – texterzeugende Systeme – urheberrechtlich geschütztes Material in die riesigen Trainingsdaten-Bestände eingeflossen ist und wie man damit umgehen sollte.

Betrug und Fake

Es ist wohl schon längst viel Schindluder und Betrug mit »gefakten« Chatbot-generierten Texten getrieben worden, und »gefakte« oder manipulierte Bilder von bilderzeugenden »KIs« sind auch schon in Umlauf. Videos ebenfalls.

Eine ganz wichtige Problematik, die offen und breit in die Diskussion gehört.

Halluzinieren und inzestuöse Daten

Es dürfte sich herumgesprochen habe, dass texterzeugende und kommunizierende System gelegentlich Unsinn »halluzinieren«, also schlicht Unsinn zusammenfabulieren. Nicht immer, aber immer öfter. Das kann einfach lachhaft sein, es kann aber (und wird irgendwann) auch Menschenleben kosten. Davon wird dann bekanntlich niemand etwas haben wissen können, geschweige denn verantwortlich zu machen sein. (Wie schreibt Fefe immer so schön: Softwarefehler. Da kann man nichts machen.)

Inzestuöse Daten entstehen dann, wenn als Grundlage des Trainings solcher »KIs« immer mehr von ebensolchen Systemen generierte Daten zur Verwendung gelangen. Die Datenbasis verseucht also nach und nach, was sich vermutlich auf die Qualität der Ergebnisse auswirken wird.


Zum Abschluss dieser Gedanken noch zwei weitere Bilder, damit schließe ich für’s Erste. Wenn ich weitere Erkenntnisse gewonnen habe – und womöglich bessere Bilder, lasse ich sicher einen weiteren Beitrag zum Thema folgen…

Kommentare

2 Antworten zu „Stable Confusion“

  1. Ein Gedanke fehlt bei der Sache aber noch: Der immense Strombedarf für teils sinnfreie Bildspielerein.

  2. Boris (Autor)

    Der erste Aspekt ist allerdings wichtig, der immense Strombedarf aller „KI“-Generatoren, ob LLMs oder bilderzeugende. Das ist eines der Dilemmata unserer Zeit, dass vieles, was wir tun, enormen Ressourcenbedarf hat.

    Genauer, das Dilemma ist:
    Wir alle, mich ausdrücklich eingeschlossen, sind nicht so gebaut, dass wir Beschäftigungen einfach komplett einstellen, weil sie massiv Ressourcen benötigen. Auch wenn sich das als Forderung immer wieder formulieren lässt.

    Der zweite Aspekt – sinnfrei – ist natürlich, dass es zum Glück keine Instanz außer der persönlichen Perspektive gibt, die sagt, was sinnfrei ist und was nicht.

Schreibe einen Kommentar zu Oliver Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert