Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Projekt Jarvis: Google-KI soll Computer bedienen

Projekt Jarvis: Google-KI soll Computer bedienen

Niklas Lewanczik | 28.10.24

Jarvis, Googles neueste KI-Kreation kann bald eigenständig das Web für dich durchsuchen und Aufgaben automatisiert ausführen – also deinen Computer für dich bedienen wie Anthropics Claude auch.

Das Zeitalter der AI Agents, die deinen Computer für dich bedienen und einfache Aufgaben ausführen, ist angebrochen. Nach Anthropic steht Google dem Vernehmen nach vor der Vorstellung eines KI-Systems, das selbstständig einen Web Browser bedient und Recherche für dich betreiben oder gar Einkäufe tätigen kann. Entwickelt wird das System unter dem Projektnamen Jarvis – dieser erinnert an diverse KI-Projekte und die Künstliche Intelligenz aus dem Blockbuster Iron Man. Jarvis soll von einem neuen Gemini-Modell unterstützt werden und einem ähnlich innovativen Feature von Anthropic ähneln, berichtet The Information.

Beitrag von @theinformation
Auf Threads ansehen

Vorstellung schon im Dezember? Googles Jarvis könnte Computer-Arbeit übernehmen

Die Informationen, auf die sich der Publisher und die Autorin Erin Woo für The Information beziehen, sollen von drei mit dem Projekt vertrauten Personen stammen. Demnach möchte Google Jarvis bereits im Dezember vorstellen. Dann soll auch eine neue Version der KI-Modell Google Gemini gelauncht werden, die das neue KI-System unterstützen könnte. Google optimiert Gemini fortlaufend und hat mit Gemini Live beispielsweise eine Funktion für den tiefgreifenden Austausch in einem natürlichen Gesprächskontext integriert – und kürzlich auch auf Deutsch verfügbar gemacht.


Google Gemini Live jetzt auf Deutsch

– und kostenlos für einige User verfügbar

Google Gemini-Logo
© Google


Googles Gemini-Modelle und der gleichnamige Chatbot (ehemals Bard) liefern Usern bereits in diversen Kontexten Support. So helfen sie beispielsweise beim Brainstorming für Creator und liefern Videozusammenfassungen auf YouTube. Auch benutzer:innendefinierte Versionen von Gemini namens Gems, mit denen gechattet werden kann, sind jetzt als Pendants zu Custom GPTs von OpenAI und Copilot GPTs von Microsoft verfügbar.

Das neue System soll einen AI Agent einsetzen, der einfache Aufgaben im Web für User übernimmt. Denn zunächst soll Jarvis nur im Browser, vornehmlich Chrome, funktionieren. Mithilfe dieses AI Agents sollen alltägliche Aufgaben automatisiert werden können. Dabei kann es um Rechercheaufgaben gehen, um Ticketbuchungen oder Shopping-Vorbereitungen und Käufe. Noch sind die Aufgabenspektren auf simple Ausführungen begrenzt, doch das könnte sich ändern.

Noch mehr AI Agency für User

Die ersten Insights zu Jarvis, dessen Launch-Datum Google letztlich auch noch verschieben könnte, erinnern bereits an KI-Entwicklungen, die Usern das digitale Alltagsleben erleichtern sollen. So möchte Microsoft mit dem Copilot, und Copilot Vision im Besonderen, die Web-Erfahrung um einen AI Agent erweitern, der sieht, was die User sehen, und die Inhalte analysiert.

Mit Voice, Vision und Think Deeper werden zudem die Interaktionsmöglichkeiten ähnlich wie bei ChatGPT mit dem Advanced Voice Mode auf ein neues Level gehoben. ChatGPT sorgt wiederum bei Apple mit der Apple Intelligence für sehr viel eigenständigen KI-Support. Gerade in Kombination mit Siri sollen Aufgaben leichter automatisiert werden können. So verspricht Apple:

[…] Mit umfassenderen Fähigkeiten, Sprache zu verstehen, ist Siri natürlicher, inhaltlich relevanter und persönlicher, und kann alltägliche Aufgaben vereinfachen und schneller erledigen […]. 

Googles Jarvis-System erinnert aber ganz besonders an den jüngst vorgestellten Computer Use-Modus des KI-Startups Anthropic. Dieser wurde für den KI-Bot Claude und die gleichnamigen Modelle, in diesem Fall Claude 3.5 Sonnet, eingeführt. Ab jetzt ist Computer Use in der Betaversion für User der API verfügbar – allerdings noch in einer experimentellen und fehleranfälligen Version. Dabei kann diese Funktion mithilfe des inzwischen optimierten Modells Claude 3.5 Sonnet generelle Skills am Computer erlernen und übernehmen. Anthropic erklärt:

[…] Developers can use this nascent capability to automate repetitive processes, build and test software, and conduct open-ended tasks like research.

To make these general skills possible, we’ve built an API that allows Claude to perceive and interact with computer interfaces. Developers can integrate this API to enable Claude to translate instructions (e.g., ‘use data from my computer and online to fill out this form‘) into computer commands (e.g. check a spreadsheet; move the cursor to open a web browser; navigate to the relevant web pages; fill out a form with the data from those pages; and so on) […].

Die Funktion soll in den kommenden Monaten rapide optimiert und trainiert werden. Erste Unternehmen wie Asana, Canva und DoorDash haben bereits Interesse an der Nutzung gezeigt. Im Video des KI-Unternehmens siehst du, wie Computer Use funktionieren kann.


KI-Modell kann deinen Computer bedienen:

Anthropic bringt Claude 3.5 Haiku und Computer Use

Skizze von Person, schwarze Stiche auf Orange, weißer Pfeil
© Anthropic via Canva

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*