Technologie
ChatGPT bekommt eine neue visuelle Dimension: OpenAI führt Bildgenerierung mit GPT-4o ein
Ein Beispiel für OpenAIs Fähigkeit, fotorealistische Bilder mit präziser Licht-, Schatten- und Texturwiedergabe zu erzeugen, © OpenAI

ChatGPT bekommt eine neue visuelle Dimension: OpenAI führt Bildgenerierung mit GPT-4o ein

Larissa Ceccio | 26.03.25

OpenAI erweitert ChatGPT um eine leistungsstarke Bildfunktion: Mit GPT-4o lassen sich direkt im Chat fotorealistische Bilder erstellen – inklusive präzisem Text, Kontextbindung und kreativem Input. Die Funktion ist jetzt für alle Nutzer:innen verfügbar, auch für Free User.

Ein Comic über eine Redakteurin, die über die neuesten KI-Entwicklungen schreibt – und komplett per Texteingabe generiert. Was wie ein kreatives Projekt mit Illustrator:innen wirkt, stammt in Wirklichkeit direkt aus dem Chat-Fenster: Mit der neuen Bildfunktion in ChatGPT lassen sich fotorealistische Bilder, Illustrationen und sogar Comics per Prompt erstellen.

OpenAI hat ChatGPT um genau diese Kernfunktion erweitert: Ab sofort können Nutzer:innen direkt im Chat Bilder generieren – unterstützt vom neuen multimodalen Modell GPT-4o.

Auf Threads ansehen

Damit verschmilzt erstmals hochwertige Textverarbeitung mit fortschrittlicher Bildsynthese innerhalb eines einzigen Tools.


Hello Voice Agents:
OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

Screenshot OpenAI Voice Model vor Farbverlauf
© OpenAI via Canva


Bildgenerierung wird Teil der Chat-Oberfläche

Was bislang in der Regel über DALL-E oder externe Tools lief, ist jetzt direkt in ChatGPT integriert: Mit der neuen Funktion Images in ChatGPT können Nutzer:innen ab sofort durch Texteingaben visuelle Inhalte erzeugen. Die Funktion basiert auf dem Modell GPT-4o, das verschiedene Modalitäten wie Text, Bild, Audio und perspektivisch auch Video verarbeiten kann.

Ein anschaulicher Überblick stammt vom AI-Experten luokai, der auf Threads den Launch der neuen Bildgenerierung durch GPT-4o zusammenfasst.

Auf Threads ansehen

Die Bildfunktion von GPT-4o überzeugt durch ihre Fähigkeit, Texte innerhalb von Bildern präzise darzustellen, Eingaben detailgetreu umzusetzen und dabei sowohl auf das in GPT-4o verankerte Weltwissen als auch auf den konkreten Chat-Verlauf zurückzugreifen. Auch hochgeladene Bilder können als Ausgangspunkt oder Inspiration dienen. So wird die Erstellung individueller, kontextbezogener Bilder erleichtert – und die visuelle Kommunikation deutlich präziser und wirkungsvoller. GPT-4o wird damit zu einem vielseitigen Werkzeug für kreative und professionelle Anwendungen.

Die Einführung erfolgt schrittweise für alle Nutzungsstufen – inklusive der kostenlosen Variante. Laut OpenAI entspricht das tägliche Bildkontingent für Free User dem bisherigen DALL-E-3-Limit, erklärte Sprecherin Taya Christianson gegenüber The Verge. In den ChatGPT FAQ heißt es, dass Nutzer:innen der kostenlosen Version bislang bis zu drei Bilder pro Tag mit DALL-E 3 generieren konnten. Plus, Team und Pro Accounts erhalten eine erweiterte Nutzungsmöglichkeit. Zugänge für Enterprise- und Bildungsangebote (Edu) folgen in Kürze. Auch in Sora ist die Funktion bereits integriert. Wer weiterhin gezielt mit DALL-E arbeiten möchte, kann dies über ein spezielles DALL-E GPT tun.

Technologische Neuerungen: Mehr Präzision bei Details und Text

Ein zentrales Merkmal des neuen Systems ist die deutlich verbesserte Darstellung komplexer Inhalte. Wie Gabriel Goh, Research Lead bei OpenAI, erklärt, wurde insbesondere an der sogenannten „Binding“-Fähigkeit gearbeitet. Damit ist gemeint, wie gut das Modell verschiedene Eigenschaften – etwa Farbe, Form und Position – korrekt miteinander verknüpft.

Raster mit 16 klar unterscheidbaren Symbolen, darunter geometrische Formen, Zahlen, Tiere und Icons – demonstriert die präzise Attributzuordnung (Binding) von GPT-4o.
Ein Beispiel für die „Binding“-Fähigkeiten der Bildgenerierung in ChatGPT, © OpenAI

Während frühere Modelle bei komplexen Prompts oft Objekte vermischten oder Farben falsch zuordneten, kann GPT-4o laut OpenAI bis zu 20 Objekte mit ihren korrekten Attributen zuverlässig abbilden.

Besonders auffällig ist die Qualität der Textdarstellung. Die Generierung von lesbarem, korrektem Text in Bildern galt lange als Schwachstelle KI-basierter Bildsysteme. GPT-4o zeigt in diesem Kontext erhebliche Fortschritte: Menüs, Plakate oder Infografiken mit Text können jetzt konsistent und ohne typografische Fehler dargestellt werden.

Vierfarbige Illustration im Retro-Stil, die die Zubereitung von Matcha in vier Schritten zeigt: Pulver sieben, Wasser hinzufügen, mit dem Besen aufschlagen und genießen. Demonstriert, wie GPT-4o strukturierte Inhalte mit lesbarem Text und klaren visuellen Elementen kombiniert.
Ein Beispiel für OpenAIs Fähigkeit, klare, textbasierte Anleitungen visuell darzustellen – ideal für Lernplakate oder How-to-Grafiken, © OpenAI

Der Grund: Anders als viele bestehende Bildgeneratoren arbeitet GPT-4o nicht mit einem Diffusionsmodell, sondern nutzt eine autoregressive Methode. Das Bild wird schrittweise aufgebaut – ähnlich wie beim Schreiben eines Satzes –, was mehr Kontrolle über Details erlaubt.

Vier Cocktails – Aperol Spritz, Margarita, Espresso Martini und Mojito – jeweils mit korrekt beschrifteten Zutatenlisten auf Schildern vor den Gläsern. Demonstriert die präzise Textwiedergabe von GPT-4o in Bildern.
in Beispiel für die Fähigkeit von Bildern in ChatGPT, zusammenhängenden, fehlerfreien Text darzustellen, © OpenAI

Vielfältige Einsatzmöglichkeiten – direkt aus dem Chat

Die Möglichkeiten der neuen Funktion sind breit gefächert. In Demonstrationen zeigte OpenAI Anwendungen wie:

  • wissenschaftliche Illustrationen (etwa das Prismaexperiment von Newton),
  • Comics mit wiederkehrenden Figuren,
  • Informationsgrafiken und Poster,
  • Sticker und Logos mit transparentem Hintergrund.
Eine Person hält ein Notizbuch mit einer farbigen Darstellung von Newtons Prismenexperiment, umgeben von einem Stadtpark mit Brunnen und Gebäuden im Hintergrund – zeigt die Fähigkeit von GPT-4o, wissenschaftliche Inhalte visuell präzise und kontextbasiert darzustellen.
Newtons Prismenexperiment als Illustration in einem Skizzenbuch, gezeichnet im Washington Square Park, © OpenAI
Vierteiliger Comic mit einer Schnecke, die ein Auto mit aufgemalten „S“ bestellt. Der Witz ergibt sich aus dem Wortspiel „S-car go“ („escargot“). Zeigt OpenAIs Stärke in der Erstellung konsistenter, charakterbasierter Bildgeschichten.
Ein Beispiel für OpenAIs Fähigkeit, Comics mit wiederkehrenden Figuren und konsistentem Stil zu generieren, © OpenAI

Dabei greift das Modell auf umfangreiches Weltwissen zurück. Nutzer:innen müssen Begriffe oder Konzepte nicht erklären – das System kennt sie. Das macht die Erstellung auch komplexer Inhalte deutlich intuitiver.

Zwar dauert die Bildgenerierung mit dem neuen System etwas länger als bisher, doch OpenAI sieht darin einen gerechtfertigten Kompromiss. Produktleiterin Jackie Shannon betont, dass die Bildqualität, die vielseitigen Fähigkeiten und das umfassende Weltwissen des Modells den Mehraufwand an Zeit deutlich aufwiegen – auch wenn es beim Thema Reaktionsgeschwindigkeit noch Optimierungspotenzial gebe.

Wir haben die neue Bildfunktion von OpenAI selbst getestet – und das ist das Ergebnis: ein vierteiliges Comic über eine Redakteurin, die über die neuesten Innovationen von OpenAI berichtet. Die Figuren sind konsistent gestaltet, der Text ist fehlerfrei integriert, und der Stil bleibt über alle Panels hinweg erhalten. Der Prompt lautete: „Erstelle ein Comic über eine Redakteurin, die über OpenAIs neue Innovationen einen Artikel verfasst.“

OnlineMarketing.de-Test: Vierteiliges Comic: Eine Redakteurin schreibt an einem Artikel über OpenAIs Innovationen. Sie tippt am Laptop, freut sich über die Inhalte und präsentiert am Ende stolz den fertigen Text mit der Überschrift „OpenAI’s Breakthroughs“.
Selbst getestet: Dieses Comic über eine Redakteurin entstand mit der neuen Bildfunktion in ChatGPT – konsistent, textsicher und im klaren Stil, © eigene OpenAI-Nutzung

Sicherheit und Urheber:innenschaft: Was User wissen sollten

Die Bilder, die mit GPT-4o generiert werden, gehören den jeweiligen Nutzer:innen – unter Einhaltung der OpenAI-Nutzungsrichtlinien. Ein sichtbares Wasserzeichen ist nicht vorgesehen, dafür wird standardisierte C2PA-Metadaten eingebettet, die die Herkunft als KI-generiert markieren.

Angesichts zunehmender Kritik an generativer Bild-KI, insbesondere im Zusammenhang mit missbräuchlich erstellten Deepfakes prominenter Personen, hebt OpenAI hervor, dass die neue Bildfunktion mit umfassenden Sicherheitsvorkehrungen ausgestattet ist. Dazu gehören:

No system is perfect for this type of thing, but we’re continuously improving our safeguards and we think of this as a starting point,

erklärt Shannon. So beeindruckend die neuen Bildfunktionen auch sind – sie stehen nicht völlig außerhalb der Kritik. Immer wieder gerät OpenAI ins Visier von Urheber:innenrechtsdebatten, weil nicht transparent ist, ob sämtliche Inhalte, die für das Training der Bildmodelle verwendet wurden, rechtlich einwandfrei lizenziert oder genutzt wurden. Mehrere Verlage, Künstler:innen und Rechteinhaber:innen haben in den vergangenen Monaten Klage eingereicht oder öffentlich Kritik geäußert. Dass GPT-4o inzwischen fotorealistische und markenähnliche Bilder erzeugen kann, sorgt daher nicht nur für Begeisterung, sondern wirft auch ethische und juristische Fragen auf – besonders mit Blick auf kommerzielle Anwendungen.

Kontext: OpenAIs größere Strategie

Mit der Integration von Bildgenerierung in ChatGPT verfolgt OpenAI einen klaren Kurs: Das Tool soll sich zu einer umfassenden, multimodalen KI-Assistenz entwickeln. Erst kürzlich erweiterte das Unternehmen ChatGPT um interaktive Voice Agents und kündigte mit dem Operator einen neuen KI-Assistenten für Unternehmen an – seit Kurzem auch in Deutschland verfügbar.


OpenAIs Operator jetzt auch in Deutschland verfügbar

OpenAI-Logo vor Büro-Hintergrund
OpenAI-Logo vor Büro-Hintergrund, © OpenAI via Canva


In einem Kommentar unter OpenAIs LinkedIn Post wies der Finanzexperte Gustavo Mesquita darauf hin, dass die Bildfunktion Teil des Text-to-Video-Modells Sora werden soll. Perspektivisch könnten also auch Videos auf ähnliche Weise generiert werden – basierend auf derselben „omnimodalen“ Architektur von GPT-4o.

Unternehmen profitieren bereits jetzt von der neuen Möglichkeit, visuelle Inhalte direkt aus dem Chat heraus zu erstellen. Ob für Marketing, Design oder Kommunikation – die Integration spart Zeit und reduziert Abhängigkeiten von externen Tools. Wie KI-Agents diesen Prozess ergänzen, haben wir in unserem Artikel über OpenAI-KI-Agents erläutert.


Die Entwicklung von KI-Agents ist dank neuer OpenAI Tools jetzt einfacher denn je

KI-Agents, Screenshot vor blauem Hintergrund, Textfelder darin
KI-Agents, © OpenAI via Canva


ChatGPT wird zum kreativen Multitalent

Mit der Integration von Bildgenerierung in ChatGPT öffnet OpenAI die Tür zu einer neuen Dimension kreativer Zusammenarbeit mit KI. Die Kombination aus Kontextverständnis, visuellem Feingefühl und präziser Textdarstellung macht GPT-4o zu einem vielseitigen Werkzeug für Design, Storytelling und Informationsvermittlung.

Der nächste Schritt ist klar: KI-Modelle wie GPT-4o werden in Zukunft nicht nur schreiben, sondern auch gestalten, erzählen – und vielleicht bald auch Regie führen.

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*