Die Bilderstellung mit KI wird immer beeindruckender – und einfacher. Dafür sorgt künftig auch DALL-E 3 von OpenAI. Die neueste Version des Text-to-Image Tools kann mit Text beschriebene Ideen in Bilder umwandeln, die diesen Vorgaben besonders gut entsprechen. Dabei müssen User die Beschreibungen nicht mehr komplett selbst erarbeiten, weil der KI-Bot ChatGPT ihnen aktiv dabei hilft.
DALL·E 3ChatGPT pic.twitter.com/90ITkUAln2
— OpenAI (@OpenAI) September 21, 2023
Das KI-Unternehmen hat die KI-Bilderstellung auf ein neues Level gehoben, gleichzeitig aber auch Sicherheitsvorkehrungen für diese getroffen, die auch den Schutz vor Kopien von Künstler:innen betreffen. OpenAI gibt sich selbstbewusst hinsichtlich der Leistungsfähigkeit des neuen Tools:
Modern text-to-image systems have a tendency to ignore words or descriptions, forcing users to learn prompt engineering. DALL·E 3 represents a leap forward in our ability to generate images that exactly adhere to the text you provide.
Das Tool ist nicht für alle ChatGPT User verfügbar
Auf dem offiziellen Blog erklärt das Unternehmen, dass die neue Tool-Version ab Oktober für Nutzer:innen der Bezahlmodelle ChatGPT Plus und ChatGPT Enterprise über die API und die Labs verfügbar sein wird. Derzeit befindet es sich noch in der Testversion. Das Tool soll in der neuen Version deutlich besser mit nuancierten Bildbeschreibungen umgehen können als die vorangegangene Version DALL-E 2 (das im Juli immerhin GPT-4 Support erhielt). So können Bilder entstehen, die sehr nah an die Vorstellungen der User heranreichen.
Our new text-to-image model, DALL·E 3, can translate nuanced requests into extremely detailed and accurate images.
— OpenAI (@OpenAI) September 20, 2023
Coming soon to ChatGPT Plus & Enterprise, which can help you craft amazing prompts to bring your ideas to life:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL
Auf dem Blog erläutert das Unternehmen anhand eines Bildbeispiels, inwieweit DALL-E 3 auch kleine Details einer Bildbeschreibung wahrzunehmen und visuell abzubilden imstande ist.
Und OpenAI liefert sogar ein Beispiel dafür, welches Ergebnis DALL-E 2 für einen spezifischen Prompt liefert und wie das Ergebnis bei DALL-E 3 im Gegensatz dazu aussieht.
Brainstorming mit ChatGPT als Vorteil für die schnellere Visual-Erstellung
Laut OpenAI können User ChatGPT für das Brainstorming oder zum Verfeinern bereits vorhandener Bildideen, die textlich festgelegt sind, nutzen. Immerhin ist DALL-E 3 nativ auf ChatGPT aufgebaut. Ob ein einfacher Satz oder eine ausführliche Beschreibung mit einigen Absätzen, das Tool versucht, möglichst detaillierte Bilder zu kreieren. Will DePue von OpenAI zeigt auf X einige Beispiele:
DALLE-3 is the best product I've seen since GPT-4, super easy to just get sucked in for hours generating images. No need for prompting since GPT-4 does it for you.
— will depue (@willdepue) September 20, 2023
Let me know if you have requests for prompts below. Here are some examples of what it can do: pic.twitter.com/45j3gPbSIo
Aus Sicherheitsgründen soll das Tool keine Inhalte erstellen können, die gewaltverherrlichend oder auf Hass aufgebaut sind. Auch Adult Content (also stark sexualisierte Inhalte) sollen ausgeschlossen werden. Zudem werden Anfragen, die zur Erstellung von Bildern zu Personen des öffentlichen Lebens hinführen sollen, abgewiesen. Und OpenAI hat darüber hinaus festgelegt, dass Anfragen zur Erstellung von Bildern im Stil lebender Künstler:innen nicht angenommen werden. Auch können Creator per Opt-out sicherstellen, dass ihre Kreationen nicht für künftige KI-Trainings genutzt werden. Derweil testet das Unternehmen ebenfalls einen Klassifikator, der feststellen können soll, ob ein Bild KI-generiert ist oder nicht.
Mit DALL-E 3 tritt OpenAI in den Wettbewerb mit Adobe Firefly, Canva und Midjourney, Stable Diffusion und dem Bing Image Creator, die allesamt KI-basierte Bilderstellung ermöglichen.
AI Tools werden immer weiter aufgewertet: Auch Google, Adobe und Co. mischen mit
Mit dem Launch von ChatGPT und dem damit einhergehenden Boost für die Entwicklung und Integration von Gen AI Tools ist OpenAI zu einem äußerst relevanten Player in der Digitalbranche avanciert. Das KI-Unternehmen, das eng mit Microsoft zusammenarbeitet und vom Tech-Konzern ein Investment in Milliardenhöhe erhielt, liefert immer neue Tools und KI-Funktionen. Vor allem der Launch des multifunktionalen KI-Modells GPT-4 sorgte für Aufsehen. Zuletzt hat das Unternehmen die bisher beste ChatGPT-Version, ChatGPT Enterprise, das Fine Tuning für das Modell GPT-3.5 Turbo und auch die Custom Instructions als kostenlose Version für die meisten User vorgestellt. Der Präsident des Unternehmens, Greg Brockmann, gab auf X zudem bekannt, dass die neue Finetuning UI jetzt live ist.
Fine-tuning UI is live, together with higher concurrency limit, and more to come: https://t.co/ED1qK5wb2l
— Greg Brockman (@gdb) September 20, 2023
Beim OpenAI DevDay, der ersten Developer-Konferenz des Unternehmens, sollen im November noch mehr neue KI-Lösungen vorgestellt werden. Und die Branche wartet gespannt darauf.
Unterdessen bieten auch andere Tech-Unternehmen vielversprechende neue Lösungen auf Basis von generativer KI. Adobe beispielsweise hat die Firefly-Lösungen kommerziell verfügbar gemacht. Damit können viele Creator ebenfalls Bild- und Videoelemente auf einem hohen Niveau mithilfe von KI erstellen. Apple arbeitet mit Hochdruck an einer eigenen Conversational AI, die mit ChatGPT und Co. konkurrieren könnte. Die ChatGPT-Konkurrenz Bard von Google hat hingegen kürzlich ein enorm großes Update erhalten und ist jetzt leistungsfähiger denn je. Auch, weil die Verknüpfung mit anderen Google-Diensten möglich gemacht wurde. Außerdem hat Google das neue KI-Modell Gemini für erste Unternehmen zur Verfügung gestellt. Dieses soll mit GPT-4 konkurrieren können und noch deutlich leistungsfähiger sein als PaLM 2, das kürzlich ebenfalls optimiert wurde.
Kommentare aus der Community
Das kommt einfach zur rechten Zeit. Kann kaum den Oktober abwarten.