Kunstprojekt - Fiktiver Streaming-Anbieter

Koffein

Zitat von PixelPatron

Ich verstehe. Habe mir comfy kurz angeschaut, das ist quasi das Tool was die Images erstellt.

Nicht ganz. ComfyUI bietet die Umgebung dafür. Die Bilder werden von dem jeweiligen Modell via Prompteingabe generiert. Das UI von ComfyUI wird dabei über den localhost Port 8188 im Browser aufgerufen. Dort kann man sich dann eben Workflows zusammenklopfen oder diese auch online herunterladen, wobei sie eben auf vielen Websites als JSON-Datei angeboten werden, die man dann einfach nur in dieses Browserfenster ziehen muss.

Hier wäre beispielsweise ein simpler Workflow für Stable Diffusion 3 Medium:

Das Ganze kann man sich auch einfacher machen, indem man einfach Forge oder A1111 nutzt. Allerdings bietet ComfyUI zwei Vorteile gegenüber diesen WebUI's.

Zum einen kann man sich dort auch ziemlich aufwendige Workflows zusammenbasteln, die eben nicht nur Bilder generieren, sondern diese auch weiterverarbeiten.

Hier wäre beispielsweise ein Workflow, den ich vor ein paar Wochen gebastelt habe:

Das sieht man jetzt nicht, da ComfyUI den Text in den Nodes nicht mehr anzeigt, wenn man zu weit hinauszoomt, aber dieser Workflow beispielsweise (sofern alle Groups aktiviert sind), erstellt erst einen per LLM generierten Prompt, leitet diesen dann an Flux weiter, wo diesem noch zuvor festgelegte Style-Prompts beigefügt werden. Anschließend generiert Flux dieses Bild. Fertiggeneriert wird das Bild dann weiter an einen SDXL Upscaler weitergeleitet. Das Endergebnis wird dann im JPEG-Format abgespeichert.

Das ist so eine der stärken von ComfyUI. Diese ganzen Aufgaben können hier eben mit einem Knopfdruck erledigt werden. Diesen Workflow könnte man auch noch erweitern oder einzelne Nodes durch andere Tauschen.

Der weitere Vorteil ist, dass man solche Workflows eben als JSON abspeichern kann. Dieses JSON kann man dann mit beispielsweise Python öffnen und auf einzelne Keys zugreifen und deren Inhalt ändern, wie den Key, der den eigentlichen Prompt enthält.

Möchte ich dann in meinem Projekt ein Bild generieren, bekommt ComfyUI nicht nur den Prompt zugeschickt (also das, was ich generiert haben möchte), sondern immer den kompletten Workflow als json. Auf diese Weise kann ich dann auch unterschiedliche Workflows mit einer Anwendung nutzen, wie bei mir der eine Workflow zum Generieren der Filmposter und der andere, der die Beschreibungstexte erzeugt.

ComfyUI muss dafür dann zwar laufen, aber eben nicht im Browser geöffnet sein.

PixelPatron

Krasser scheiss. Sorry für die Wortwahl aber was in den letzten Jahren alles möglich wurde. Ist nicht unbedingt meine Ecke aber hoch interessant.

Koffein

Tag.

Ich melde mich damit wieder aus der Versenkung zurück. Kurz nach der Anmeldung hier, hatte sich irgendwie so ein Drang gebildet, möglichst viel zu Posten bzw. zu schreiben. Dann verursachte das Stress und ich habe den Stecker gezogen. Sollte dieses Projekt / dieser Irrsinn aber tatsächlich jemanden interessieren, dann tut es mir leid für die Funkstille.

Eine Weile lang hatte ich überlegt, dieses Projekt an den Nagel zu hängen. Allerdings hat mich die Sache dann doch nicht mehr so recht losgelassen. So wie ich das damals aufziehen wollte, hätte das hier und da zwar funktioniert, aber das Endergebnis oder besser gesagt Beschreibungstexte und Bilder wären häufig nicht sonderlich brauchbar gewesen. Deshalb habe ich mich dann vor einer Weile dazu entschieden, die Sache ganz anders anzugehen.

Statt also den kompletten Weg zur jeweiligen Film-Page (Cover-Art, Schauspieler, Beschreibungstext und Co.) zu automatisieren, wollte ich einen kuratierten Ansatz angehen. Ich werde daher sämtliche Beschreibungen - mal länger, mal kürzer - selbst schreiben. Außerdem wird jedes Bild manuell generiert. Später kam ich nämlich auch auf den Trichter, dass jede Film-Page auch Screenshots von Szenen beinhalten soll, wie man das von Amazon her kennt. Das ist zwar nicht (mehr?) innerhalb von Prime Video, aber auf den Pages für DVD's und Blurays sieht das noch so aus.

Beispiel:

Schauspieler werden daher eben nun auch nicht mehr zufällig generiert, sondern kommen aus einem Pool an LoRAs, die ich im Vorfeld trainiere (kleinere Rollen/Statisten nicht inbegriffen). Noch ist dieser Pool sehr überschaubar. Im Moment bin ich bei 12 fiktiven Personen. Um eine Person zu erstellen, nutze ich Charakter-Editoren diverser Videospiele. Für den Datensatz mache ich dann Screenshots, die diesen Charakter innerhalb von verschiedenen Szenen und in unterschiedlichen Posen, Winkeln und Belichtung zeigen. Das Training darf nicht zu lange dauern, da der Charakter dann zwar ähnlicher wird, aber zunehmend in dem Stil des Spieles (als stilisiertes 3D-Modell) generiert wird. Außerdem müssen GUI-Elemente und Dinge wie Lebensbalken ausgeblendet werden. Deshalb eignen sich vor allem Spiele mit Fotomodus.

Einer der Screenshots die für's Training genutzt wurden (aus Baldur's Gate 3):

Sample-Bild aus dem Training (Step 700):

Gerade aufgrund von diesem neuen Ansatz, musste ich die ganze Idee stark abändern. Es sollte am Ende nämlich immer noch möglichst glaubhaft wirken. Mir ist allerdings aufgefallen, dass es bei mehreren Schauspielern in einer Szene oder auf einem Cover schnell mal zu Problemen kommt. Eine Style-LoRA + eine Charakter-LoRA zwicken sich häufig nicht wirklich. Die Sache sieht aber anders aus, wenn man mehrere Charakter-LoRAs reinlädt. Da hilft es dann auch häufig nicht viel, die Gewichtung der einzelnen LoRAs ein wenig anzupassen oder sehr lange und explizite Prompts zu schreiben. Bei einem Versuch, drei Charaktere in einer Szene unterzubringen, wurden fast ausschließlich dreimal die gleiche Person generiert, wobei das Gesicht ein Mix aus allen dreien war. Ich kam aber dann auf die Idee, das jeweilige Bild initial nur mit einer Charakter-LoRA zu generieren und die anderen Personen nur vage so beschreibe, wie die anderen Schauspieler aussehen (Größe, Statur usw.). Im Nachhinein nutze ich dann einfach die Inpainting-Funktion von Forge, maskiere den Kopf und lass bei der Person - eben dann mit der jeweiligen LoRA geladen - einfach das Gesicht dieses Schauspielers generieren. Das klappt relativ gut, aber es sind häufig mehrere Versuche nötig. Schon deshalb würde der anfängliche automatisierte Ansatz nicht funktionieren.

Der Plan sieht so aus, dass ich wohl einen ganzen Haufen an fiktiven Schauspielern auf diese Weise erzeugen werde. Eine genaue Zahl habe ich hier nicht festgelegt, aber es könnten ein paar hundert werden. Bei Charakter-LoRAs reicht eine kleine Dimensionierung. Daher nehmen die auch nicht viel Platz auf der Platte weg (zweistelliger MB-Bereich). Für Szenen, Cover etc. werde ich dann noch einzelne Style- und Konzept-LoRAs trainieren.

Hier ein paar Beispiele der Horror-Cover-LoRA, die nach etlichen Fehlschlägen dann doch brauchbar wurde:

Während der letzten Wochen habe ich zwar wieder etwas mehr trainiert, bin aber auf kühles Wetter angewiesen. Meine GPU heizt gut beim Training und wenn es heiß wird, staut sich die warme Luft in der Wohnung ohnehin schon. Läuft das Ding dann auch noch mehrere Stunden bei nahezu 100%, dann ist es ein wenig so, als würde ich zusätzlich zu den hohen Temperaturen auch noch die Heizung anwerfen.

Mist habe ich beim Training viel gebaut. Auch das ein oder andere, das sich anfangs wie eine super Idee angehört hat, entpuppte sich letztendlich als völliger Griff ins Klo. Ich schätze aber mal, so lernt man dazu. Das Ding ist und bleibt am Ende letztendlich nur so etwas wie ein beklopptes Kunstprojekt, in das ich insgesamt wohl mehr Zeit und Energie stecken werde, als notwendig ist. Ich arbeite nur sporadisch daran, also kann das noch sehr lange dauern. Sollte allerdings Interesse an einer Beispiel-Page für einen Film bestehen (gerne auch mit Vorschlag zu Genre, Setting und Titel), werde ich da etwas zusammenbasteln und im Laufe der Tage mal ein paar Screens posten oder die Seite auf Github-Pages packen.

Kunstprojekt - Fiktiver Streaming-Anbieter

Koffein 21. Juli 2025 um 13:31

Koffein 21. Juli 2025 um 18:16

Jetzt mitmachen!

Benutzer online in diesem Thema

Rechtliches