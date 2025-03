Ein zentrales Merkmal des neuen Systems ist die deutlich verbesserte Darstellung komplexer Inhalte. Wie Gabriel Goh, Research Lead bei OpenAI, erklärt, wurde insbesondere an der sogenannten „Binding“-Fähigkeit gearbeitet. Damit ist gemeint, wie gut das Modell verschiedene Eigenschaften – etwa Farbe, Form und Position – korrekt miteinander verknüpft.

Während frühere Modelle bei komplexen Prompts oft Objekte vermischten oder Farben falsch zuordneten, kann GPT-4o laut OpenAI bis zu 20 Objekte mit ihren korrekten Attributen zuverlässig abbilden.

Besonders auffällig ist die Qualität der Textdarstellung. Die Generierung von lesbarem, korrektem Text in Bildern galt lange als Schwachstelle KI-basierter Bildsysteme. GPT-4o zeigt in diesem Kontext erhebliche Fortschritte: Menüs, Plakate oder Infografiken mit Text können jetzt konsistent und ohne typografische Fehler dargestellt werden.

Der Grund: Anders als viele bestehende Bildgeneratoren arbeitet GPT-4o nicht mit einem Diffusionsmodell, sondern nutzt eine autoregressive Methode. Das Bild wird schrittweise aufgebaut – ähnlich wie beim Schreiben eines Satzes –, was mehr Kontrolle über Details erlaubt.

Die Möglichkeiten der neuen Funktion sind breit gefächert. In Demonstrationen zeigte OpenAI Anwendungen wie:

Dabei greift das Modell auf umfangreiches Weltwissen zurück. Nutzer:innen müssen Begriffe oder Konzepte nicht erklären – das System kennt sie. Das macht die Erstellung auch komplexer Inhalte deutlich intuitiver.

Zwar dauert die Bildgenerierung mit dem neuen System etwas länger als bisher, doch OpenAI sieht darin einen gerechtfertigten Kompromiss. Produktleiterin Jackie Shannon betont, dass die Bildqualität, die vielseitigen Fähigkeiten und das umfassende Weltwissen des Modells den Mehraufwand an Zeit deutlich aufwiegen – auch wenn es beim Thema Reaktionsgeschwindigkeit noch Optimierungspotenzial gebe.

Wir haben die neue Bildfunktion von OpenAI selbst getestet – und das ist das Ergebnis: ein vierteiliges Comic über eine Redakteurin, die über die neuesten Innovationen von OpenAI berichtet. Die Figuren sind konsistent gestaltet, der Text ist fehlerfrei integriert, und der Stil bleibt über alle Panels hinweg erhalten. Der Prompt lautete: „Erstelle ein Comic über eine Redakteurin, die über OpenAIs neue Innovationen einen Artikel verfasst.“

Die Bilder, die mit GPT-4o generiert werden, gehören den jeweiligen Nutzer:innen – unter Einhaltung der OpenAI-Nutzungsrichtlinien. Ein sichtbares Wasserzeichen ist nicht vorgesehen, dafür wird standardisierte C2PA-Metadaten eingebettet, die die Herkunft als KI-generiert markieren.

Angesichts zunehmender Kritik an generativer Bild-KI, insbesondere im Zusammenhang mit missbräuchlich erstellten Deepfakes prominenter Personen, hebt OpenAI hervor, dass die neue Bildfunktion mit umfassenden Sicherheitsvorkehrungen ausgestattet ist. Dazu gehören:

No system is perfect for this type of thing, but we’re continuously improving our safeguards and we think of this as a starting point,