Technologie
Google launcht hochfunktionale Gemma 3-Modelle – und überrascht mit Gemini 2.0 Robotics

Google launcht hochfunktionale Gemma 3-Modelle – und überrascht mit Gemini 2.0 Robotics

Niklas Lewanczik | 13.03.25

Die Gemma-Modelle laufen schnell direkt auf Geräten wie Smartphones und ermöglichen beispielsweise die rasche Kreation von AI Apps oder UX Features. Parallel zu Gemma 3 stellt Google native Bildgenerierung mit Gemini 2.0 Flash Experimental und erstaunliche AI Robotics Models vor.

Die Familie Gemma von Google bietet für Entwickler:innen und Researcher offene KI-Modelle mit hohem Leistungspotential, die KI zu einem nützlichen Tool auch für den Einsatz auf einzelnen Geräten zu machen. Seit der Vorstellung von Gemma konnte Google über 100 Millionen Downloads für die Modelle generieren. Nach dem Launch von Gemma 2 mit zwei Parametergrößen im Sommer 2024 kommt jetzt Gemma 3. Die neuen Modells sollen die leistungsfähigsten KI-Models für Prozesse auf einzelnen GPUs oder TPUs sein. So können Developer auch einfach auf Smartphones Anwendungen damit erstellen.

Gemma wird von der gleichen Technologie unterstützt wie Googles Gemini 2.0-Modell; und mithilfe desselben kreiert die Alphabet-Tochter jetzt ganz neue Bildgenerierungsmöglichkeiten sowie Robotics-Ansätze, die sogar die unmittelbare Umgebung für das Verständnis der Maschinen miteinbeziehen.


Google launcht KI-Modelle Gemma 2 für Developer und Researcher

Gemma 2-Grafik von Google, Logo vor blauem Hintergrund
© Google


Gemma 3 in vier Größen: Vorteile für die schnelle App-Entwicklung und On-Device-Nutzung

Die neue Modellfamilie von Gemma 3 wird in den Größen 1B, 4B, 12B und 27B bereitgestellt. Damit können Entwickler:innen die beste Option für ihre Hardware und Performance-Ansprüche auswählen. Mit Gemma 3 sollen AI-Modelle noch schneller und verslässlicher auf Smartphones oder Laptops laufen und die Erstellung von Apps mithilfe von KI vereinfachen.

Auf Threads ansehen

Dabei schlägt Gemma 3 laut Google andere Modelle wie OpenAIs o3, DeepSeek V3 und Llama-405B im LMArena Leaderboard, wenn es um die Bewertung menschlicher Präferenzen geht. Deshalb können Developer damit passende User-Erfahrungen kreieren, die auf nur einer GPU oder TPU laufen können. Zusätzlich bietet Gemma 3 Support für 35 Sprachen und eine Pre-Training für 140 Sprachen. Mithilfe der KI lassen sich Apps erstellen, die zum Beispiel Texte, Bilder und Videos erkennen und analysieren können. Ein 128k-Token-Kontextfenster kann zudem komplexere Datenverarbeitungen ermöglichen. Und Function Calling sowie der strukturierte Output sollen für die Optimierung der Automatisierung und von agentischen Handlungen sorgen.

Wer Gemma nutzt, kann diese Modelle direkt in Workflows integrieren, da Hugging Face Transformers, Ollama, JAX, Keras, PyTorch, Google AI Edge, UnSloth, vLLM und Gemma.cpp Unterstützung erfahren. Über Hugging Face, Ollama oder Kaggle können Interessierte die Modelle herunterladen oder diese im AI Studio – auch im Browser – direkt testen. Mit dem Google GenAI SDK und dem API Key aus dem Studio lassen sich die Modelle direkt nutzen. Developer können ihre eigenen Gemma-Kreationen personalisieren und anpassen und so zum Gemmaverse beitragen.

Auch Gemini 2.0 sorgt für Aufsehen: Neue Bildgenerierung und KI in der physischen Robotics-Welt

Im AI Studio können User inzwischen auf die sogenannte Native Image Generation zurückgreifen. Dafür ist die neue Modellversion Gemini 2.0 Flash Experimental verantwortlich, eine Variante von dem laut Google „besten KI-Modell der Welt“ Gemini 2.0. In Googles Beispiel werden automatisch KI-Bilder für einzelne Schritte einer Rezeptangabe integriert, weil der User darum gebeten hat. Diese native Einbettung zeigt Geminis multimodale Fähigkeiten.

Auf Multimodalität in Kombination mit physischer Handlungsfähigkeit setzt indes Googles Bereich Gemini 2.0 Robotics. Laut Google CEO Sundar Pichai können die neuen Modelle der Gemini 2.0 Robotics-Reihe in verschiedenen Szenarien eingesetzt werden und ah hoc Änderungen adaptieren und auf die visuelle Umgebung reagieren.

Auf Threads ansehen

Dabei unterstützen das Advanced Vision-Language-Action (VLA) Model Gemini Robotics sowie Gemini Robotics-ER, ein Gemini-Modell mit verbessertem räumlichen Verständnis, das den Maschinen mehr Eigenständigkeit beim Ausführen ihrer Programm liefert. Carolina Parada erklärt auf dem DeepMind Blog:

[…] Both of these models enable a variety of robots to perform a wider range of real-world tasks than ever before. As part of our efforts, we’re partnering with Apptronik to build the next generation of humanoid robots with Gemini 2.0. We’re also working with a selected number of trusted testers to guide the future of Gemini Robotics-ER. We look forward to exploring our models’ capabilities and continuing to develop them on the path to real-world applications.

Wie die Robotics-Modelle IRL agieren, kannst du dir in einem Demovideo von Google anschauen.

Modelle wie Gemini 2.0, solche, die auf Gemma 3 basieren und die vielen Alternativen von Anthropic, OpenAI, Microsoft, Meta und Co. werden die hochtechnologisierte Welt, in der wir leben, nachhaltig verändern – von der App auf dem Smartphone bis zum arbeitenden Roboter.


Das „beste KI-Modell der Welt“:

Gemini 2.0 Flash erhält neue Versionen

Gemini 2.0 Flash Thinking Experimental von Google
Gemini 2.0 Flash Thinking Experimental, © Google via Canva

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*