Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
DragGAN: KI-basierte Drag-and-Drop-Bildbearbeitung als Creative-Revolution
© Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold, Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt (Creative Commons CC BY-NC 4.0)

DragGAN: KI-basierte Drag-and-Drop-Bildbearbeitung als Creative-Revolution

Niklas Lewanczik | 22.05.23

Du möchtest KI-generierte Bilder in Sekundenschnelle selbst an den passenden Stellen verändern – und zum Beispiel eine Katze blinzeln lassen? DragGAN macht es möglich.

Stell dir vor, du erstellst für dein nächstes Werbe-Creative per KI ein Bild und bist nicht ganz zufrieden mit der Position des Produkts, der Perspektive oder dem Gesichtsausdruck der Person auf dem Bild. Und stell dir nun vor, du könntest per Drag-and-Drop-Verfahren einfach die betreffenden Stellen markieren und so zurechtziehen, dass das Bild deiner Vorstellung entspricht. Genau diese Möglichkeit bietet eine neuartige Technologie namens DragGAN. Dabei handelt es sich noch um ein theoretisch vorgestelltes Projekt – entwickelt vom Max Planck Institute for Informatics, dem Saarbrücken Research Center for Visual Computing, Interaction and AI, dem MIT, der University of Pennsylvania und Googles AR/VR Team. Integriert in ein Bildbearbeitungsprodukt könnte DragGAN jedoch etablierten Diensten wie Photoshop, Canva und Co. Konkurrenz machen. Denn die Methode ist effizient und für diverse Einsatzszenarien geeignet.

Was heißt DragGAN und was steckt hinter der Methode?

Bei der Methode DragGAN steht das GAN für Generative Adversarial Networks, ein Framework für Machine-Learning-Modelle mit zwei neuronalen Netzwerken. Diese Art von Framework wird des Öfteren für den Einsatz von generativer KI genutzt. Auch das Expert:innen-Team um Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka und Christian Theobalt setzt auf GAN, um die DragGAN-Methode zu entwickeln. Bei dieser Methode können computergenerierte Bilder ganz einfach per Drag-and-Drop-Verfahren verändert werden, indem die User Punkte markieren und dann beliebige Veränderungen für diese vornehmen. So können Blickrichtungen, Größen, Sitzpositionen, Perspektiven und dergleichen spielend leicht angepasst werden – du kannst sogar eine Katze zwinkern lassen. Diese Methode befindet sich noch in der theoretischen Entwicklungsphase, doch im Paper wird konkret ausgeführt:

In this work, we study a powerful yet much less explored way of controlling GANs, that is, to „drag“ any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components including: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative GAN features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc.

Mit der DragGAN-Methode können per Computer generierte Bilder ganz einfach manuell angepasst werden, © Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold, Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt (Creative Commons CC BY-NC 4.0)
Mit der DragGAN-Methode können per Computer generierte Bilder ganz einfach manuell angepasst werden, © Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold, Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt (Creative Commons CC BY-NC 4.0)

Auch der KI-Experte Jens Polomski berichtet auf LinkedIn über die Methode und benennt deren Potential für digitale Prozesse wie die Creative-Erstellung, die Bildbearbeitung auch für Social-Media-Beiträge oder die umfassende Bearbeitung eigener Assets für unterschiedliche Zwecke – ob in der Agentur, im Medienhaus oder im E-Commerce-Shop.

Man wählt ein paar Punkte auf dem Bild aus und gibt an, wo diese Punkte sich bewegen sollen und das Bewegt verändert sich und bewegt sich an die gewünschte Stelle. Dies wäre eine krass einfache Art, Bilder zu verändern, ohne viel technisches Wissen oder Programme zu benötigen.



Noch mehr Insights zur Methode findest du im Paper „Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold“.

Ein neues Zeitalter der Bildbearbeitung ist angebrochen

Dank der jüngsten Entwicklungen im Bereich der Künstlichen Intelligenz und insbesondere generativer KI haben Social Media Manager, Werbe-Creative-Designer:innen oder zum Beispiel Visual-Beauftragte für Online Shops immer mehr Optionen, um aussagekräftige, verspielte und passgenaue Visuals zu erstellen. Dank KI-Unterstützung bietet zum Beispiel Canva mit der Betaversion von Magic Edit eine Möglichkeit, um in Sekundenschnelle mit Wortbeschreibungen Bildergänzungen zu generieren.

Mithilfe von Bildbeschreibungen können User auch über den Bing Image Creator eigene Visuals erstellen lassen.

Das funktioniert beispielsweise aber auch über die Tools Midjourney oder Adobes Firefly. Mit diesen hat AI Educatorin Kris Kashtanova von der Columbia University sogar schon einen KI-generierten Comic hervorgebracht.

Die kreative Umsetzung von Designideen ermöglicht inzwischen auch der sogenannte Microsoft Designer, ein Tool auf AI-Basis, das blitzschnelle Visual-Erstellungen erlaubt.

Design-Kreation im neuen Microsoft Designer, © Microsoft
Design-Kreation im neuen Microsoft Designer, © Microsoft

KI-Bildbearbeitung und -erstellung erleichtert auch die Ad-Kreation

Die großen Tech-Konzerne entwickeln derzeit fleißig Tools und Modelle, um Visuals möglichst einfach erstellen und bearbeiten zu können. Das wirkt sich auch positiv auf die Effizienz bei der Creative-Erstellung im Werbekontext aus. Meta zum Beispiel stellt bereits die AI Sandbox für KI-gestützte Ads bereit. Dabei greift der Konzern auch auf ein neues Modell im Bereich der Künstlichen Intelligenz zurück: Das Segment Anything Model, kurz SAM. Dieses kann Objekte in Bildern und Videos identifizieren, auch, wenn es den Items zuvor noch nicht begegnet ist. User können entweder auf Objekte im Bild klicken oder per Texteingabe nach Items suchen. Wird beispielsweise das Wort „Pinguin“ eingegeben, werden alle in dem Bild auffindbaren Pinguine mit einer Markierung gekennzeichnet.

Metas Segment Anything Model (SAM) im Einsatz
Metas Segment Anything Model (SAM) im Einsatz, © Meta

Neben Meta arbeiten aktuell Google, Amazon und Co. daran, Werbetreibenden – und auch Händler:innen – die Bildkreation dank KI-Tools zu erleichtern. Damit wird die Creative-Produktion umfassend verändert.

Auf welche Tools und Methoden setzt du schon bei der Visual-Kreation für deine Zwecke? Lass es uns gern in den Kommentaren wissen.


Next-Level-Werbung:

Google, Meta und Amazon läuten das Zeitalter KI-generierter Ads ein

© Bildschirme im Dunkeln, rote Lichtpunkte, Personen zu erkennen
© Maxim Hopman – Unsplash (Änderungen wurden vorgenommen via Canva)

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*