Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
DALL-E 3 ist da und kommt zu ChatGPT – endlich KI-Bilder genau wie im Text

DALL-E 3 ist da und kommt zu ChatGPT – endlich KI-Bilder genau wie im Text

Niklas Lewanczik | 21.09.23

OpenAIs Text-to-Image AI Tool DALL-E 3 ist da und transformiert deine Ideen direkt in erstaunliche Bilder. Dabei ist das Tool auf ChatGPT aufgebaut und wird für einige User des Bots integriert. DALL-E 3 ist deutlich leistungsfähiger als DALL-E 2 und hat einige Sicherheitsvorkehrungen zu bieten.

Die Bilderstellung mit KI wird immer beeindruckender – und einfacher. Dafür sorgt künftig auch DALL-E 3 von OpenAI. Die neueste Version des Text-to-Image Tools kann mit Text beschriebene Ideen in Bilder umwandeln, die diesen Vorgaben besonders gut entsprechen. Dabei müssen User die Beschreibungen nicht mehr komplett selbst erarbeiten, weil der KI-Bot ChatGPT ihnen aktiv dabei hilft.

Das KI-Unternehmen hat die KI-Bilderstellung auf ein neues Level gehoben, gleichzeitig aber auch Sicherheitsvorkehrungen für diese getroffen, die auch den Schutz vor Kopien von Künstler:innen betreffen. OpenAI gibt sich selbstbewusst hinsichtlich der Leistungsfähigkeit des neuen Tools:

Modern text-to-image systems have a tendency to ignore words or descriptions, forcing users to learn prompt engineering. DALL·E 3 represents a leap forward in our ability to generate images that exactly adhere to the text you provide.

Das Tool ist nicht für alle ChatGPT User verfügbar

Auf dem offiziellen Blog erklärt das Unternehmen, dass die neue Tool-Version ab Oktober für Nutzer:innen der Bezahlmodelle ChatGPT Plus und ChatGPT Enterprise über die API und die Labs verfügbar sein wird. Derzeit befindet es sich noch in der Testversion. Das Tool soll in der neuen Version deutlich besser mit nuancierten Bildbeschreibungen umgehen können als die vorangegangene Version DALL-E 2 (das im Juli immerhin GPT-4 Support erhielt). So können Bilder entstehen, die sehr nah an die Vorstellungen der User heranreichen.

Auf dem Blog erläutert das Unternehmen anhand eines Bildbeispiels, inwieweit DALL-E 3 auch kleine Details einer Bildbeschreibung wahrzunehmen und visuell abzubilden imstande ist.

DALL-E 3 produziert Bilder nach sehr genauen Angaben von Usern, © OpenAI , Zwei Personen an einem Stand, Menschen auf der Straße zwischen Häusern, der Mond scheint, Bildbeschreibungen mit Strichverweis auf die entsprechenden Bilder
DALL-E 3 produziert Bilder nach sehr genauen Angaben von Usern, © OpenAI

Und OpenAI liefert sogar ein Beispiel dafür, welches Ergebnis DALL-E 2 für einen spezifischen Prompt liefert und wie das Ergebnis bei DALL-E 3 im Gegensatz dazu aussieht.

Brainstorming mit ChatGPT als Vorteil für die schnellere Visual-Erstellung

Laut OpenAI können User ChatGPT für das Brainstorming oder zum Verfeinern bereits vorhandener Bildideen, die textlich festgelegt sind, nutzen. Immerhin ist DALL-E 3 nativ auf ChatGPT aufgebaut. Ob ein einfacher Satz oder eine ausführliche Beschreibung mit einigen Absätzen, das Tool versucht, möglichst detaillierte Bilder zu kreieren. Will DePue von OpenAI zeigt auf X einige Beispiele:

Aus Sicherheitsgründen soll das Tool keine Inhalte erstellen können, die gewaltverherrlichend oder auf Hass aufgebaut sind. Auch Adult Content (also stark sexualisierte Inhalte) sollen ausgeschlossen werden. Zudem werden Anfragen, die zur Erstellung von Bildern zu Personen des öffentlichen Lebens hinführen sollen, abgewiesen. Und OpenAI hat darüber hinaus festgelegt, dass Anfragen zur Erstellung von Bildern im Stil lebender Künstler:innen nicht angenommen werden. Auch können Creator per Opt-out sicherstellen, dass ihre Kreationen nicht für künftige KI-Trainings genutzt werden. Derweil testet das Unternehmen ebenfalls einen Klassifikator, der feststellen können soll, ob ein Bild KI-generiert ist oder nicht.

Mit DALL-E 3 tritt OpenAI in den Wettbewerb mit Adobe Firefly, Canva und Midjourney, Stable Diffusion und dem Bing Image Creator, die allesamt KI-basierte Bilderstellung ermöglichen.

AI Tools werden immer weiter aufgewertet: Auch Google, Adobe und Co. mischen mit

Mit dem Launch von ChatGPT und dem damit einhergehenden Boost für die Entwicklung und Integration von Gen AI Tools ist OpenAI zu einem äußerst relevanten Player in der Digitalbranche avanciert. Das KI-Unternehmen, das eng mit Microsoft zusammenarbeitet und vom Tech-Konzern ein Investment in Milliardenhöhe erhielt, liefert immer neue Tools und KI-Funktionen. Vor allem der Launch des multifunktionalen KI-Modells GPT-4 sorgte für Aufsehen. Zuletzt hat das Unternehmen die bisher beste ChatGPT-Version, ChatGPT Enterprise, das Fine Tuning für das Modell GPT-3.5 Turbo und auch die Custom Instructions als kostenlose Version für die meisten User vorgestellt. Der Präsident des Unternehmens, Greg Brockmann, gab auf X zudem bekannt, dass die neue Finetuning UI jetzt live ist.

Beim OpenAI DevDay, der ersten Developer-Konferenz des Unternehmens, sollen im November noch mehr neue KI-Lösungen vorgestellt werden. Und die Branche wartet gespannt darauf.

Unterdessen bieten auch andere Tech-Unternehmen vielversprechende neue Lösungen auf Basis von generativer KI. Adobe beispielsweise hat die Firefly-Lösungen kommerziell verfügbar gemacht. Damit können viele Creator ebenfalls Bild- und Videoelemente auf einem hohen Niveau mithilfe von KI erstellen. Apple arbeitet mit Hochdruck an einer eigenen Conversational AI, die mit ChatGPT und Co. konkurrieren könnte. Die ChatGPT-Konkurrenz Bard von Google hat hingegen kürzlich ein enorm großes Update erhalten und ist jetzt leistungsfähiger denn je. Auch, weil die Verknüpfung mit anderen Google-Diensten möglich gemacht wurde. Außerdem hat Google das neue KI-Modell Gemini für erste Unternehmen zur Verfügung gestellt. Dieses soll mit GPT-4 konkurrieren können und noch deutlich leistungsfähiger sein als PaLM 2, das kürzlich ebenfalls optimiert wurde.


OpenAI DevDay:

Erste Developer-Konferenz soll neue KI-Lösungen zeigen

© Jonathan Kemper - Unsplash, Screen nmit OpenAI-Logo und Text, Beige, Weiß, Rot im Hintergrund
© Jonathan Kemper – Unsplash

Kommentare aus der Community

Raphael am 23.09.2023 um 13:38 Uhr

Das kommt einfach zur rechten Zeit. Kann kaum den Oktober abwarten.

Antworten
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*