Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Google I/O 2024: KI-Übersichten in Search, multimodales Gemini und Ask Photos

Google I/O 2024: KI-Übersichten in Search, multimodales Gemini und Ask Photos

Swantje Schemmerling | 15.05.24

Bei der diesjährigen I/O-Konferenz von Google standen KI-Innovationen im Fokus, die signifikante Änderungen für die Google-Suche und neue Anwendungsentwicklungen mit sich bringen werden. Auch das neue Modell Gemini 1.5 Flash wurde vorgestellt.

Die am 14. Mai abgehaltene Google I/O-Konferenz war reich an Innovationen, vor allem im Bereich der Künstlichen Intelligenz. Google stellte eine Reihe neuer Funktionen und Anwendungen vor, die darauf abzielen, das tägliche Leben und Arbeiten mit den Google-Produkten zu vereinfachen und zu bereichern. Unterdessen wird die Suche mit neuen AI-Funktionen revolutioniert.

KI-Übersichten in der Google-Suche

Eine der bedeutendsten Ankündigungen war die Einführung eines neuen KI-gesteuerten Suchprozesses. Die aus der Search Generative Experience bekannten KI-Übersichten bieten nun vollständige Antworten direkt auf den Suchergebnisseiten, was das Nutzer:innenverhalten erheblich verändern könnte. Statt auf Links zu klicken, erhalten User sofort umfassende Informationen. Diese Funktion wird zunächst in den USA eingeführt, mit Plänen für eine baldige globale Expansion. Die Einführung der KI-Übersichten in die Google-Suche könnte sich nachteilig für Website-Betreiber:innen auswirken, die bisher stark von Google-Weiterleitungen profitieren. Nutzer:innen erhalten jetzt Antworten direkt in der Suchergebnisliste und müssen möglicherweise nicht mehr auf externe Seiten klicken, um Informationen zu finden. Obwohl Google weiterhin die traditionellen Suchergebnisse unter den KI-basierten Antworten anzeigt, ist es noch ungewiss, wie sich diese Änderung auf die Suchmaschinenoptimierung auswirken wird.

Neben der textbasierten Suche erweitert Google zusätzlich die Möglichkeiten der visuellen Suche. Nutzer:innen können nun Videoanfragen stellen, die es ermöglichen, Suchanfragen in einem neuen, interaktiveren Format zu erleben und der Suchmaschine Fragen zu stellen, die man bisher nicht in Worte fassen konnte. Die Suche mit Videos wird den Nutzer:innen der Search Labs in den USA auf Englisch zur Verfügung gestellt, bevor sie im Laufe der Zeit auf weitere Regionen erweitert werden soll.

Videokreation mit Veo und Updates für Imagen 3

Google führt auch neue, fortschrittlichere generative KI-Optionen für die Bild- und Videoerstellung ein, mit Imagen 3 für die Bilderzeugung und Veo, das Videoclips aus Textanweisungen erstellen kann. Mit Veo stellt Google eine Antwort auf OpenAIs Sora vor. Veo ermöglicht es Nutzer:innen, aus einfachen Textbeschreibungen heraus hochwertige Videos mit 1080p-Auflösung zu erstellen. Dies ist eine große Chance für Content-Ersteller:innen und Marketing-Expert:innen, die nun schnell und effizient visuellen Content produzieren können. Laut Google soll Veo in der Lage sein, Videos zu erstellen, die länger als eine Minute sind.

Beitrag von @google
Auf Threads ansehen

Imagen 3 repräsentiert das fortschrittlichste Text-zu-Bild-Modell, das darauf ausgelegt ist, hochdetaillierte und fotorealistische Bilder zu erzeugen, so Google. Es bietet ein verbessertes Verständnis von Sprache und kann eine breite Palette von Stilen umsetzen. Imagen 3 ist derzeit in einer privaten Vorschau für ausgewählte Kreative zugänglich und soll in Kürze für Vertex AI verfügbar sein.

Weiterentwicklung bei Gemini

Gemini wird umfassend in Googles Workspace-Anwendungen wie Gmail, Google Kalender und Google Docs integriert. In Gmail ermöglicht der verbesserte Chatbot Gemini 1.5 Pro das Suchen und Zusammenfassen von E-Mails und Google Meet-Aufzeichnungen direkt in der App. Nutzer:innen können auch E-Mail Threads automatisch zusammenfassen lassen und erhalten mehrere vorgeschlagene Antworten zur Auswahl. Sollte keine Antwort passen, können User eigene Prompts eingeben. Zudem agiert Gemini in Google Chat als virtuelle Assistenz, die Chats durchsucht und Informationen zu Projekten zusammenfasst.

 

Diese Funktionen sind zunächst nur für Labs-Nutzer:innen und Alphatester:innen verfügbar und werden im nächsten Monat auf Business-Kund:innen und Google One AI Premium-Abonnent:innen ausgeweitet. Anfangs stehen diese Neuerungen nur in den USA zur Verfügung und sind Teil von Experimenten in einem frühen Entwicklungsstadium. Der globale Rollout wird zu einem späteren Zeitpunkt erfolgen.

Google hat eine leistungsstarke Sprachassistenz mit Künstlicher Intelligenz namens „Live“ vorgestellt, die mit GPT-4o konkurrieren kann. Gemini Live nutzt ein verbessertes multimodales KI-Modell, um mobilen Nutzer:innen ein natürlicheres Gesprächserlebnis in Echtzeit zu bieten. Mit Gemini Live können Sprachkonversationen mit Gemini geführt werden, die sich natürlich und intuitiv anfühlen. User können Gemini Live beispielsweise Fragen in ihrem eigenen Tempo stellen und den KI-Bot mitten im Satz unterbrechen, um ihn zu veranlassen, seine Antwort zu präzisieren oder anzupassen, ähnlich wie bei OpenAIs GPT-4o. Google wird eine Vielzahl von Stimmen anbieten, aus denen die Nutzer:innen wählen können.

Die Alphabet-Tochter hat außerdem eine neue LearnLM-Initiative angekündigt, die generative KI nutzt, um personalisierte Bildungsmodelle zu beliebigen Themen zu erstellen, und arbeitet mit mehreren Universitäten an neuen Prozessen, um die Bildung durch ihre generativen KI-Tools zu erleichtern.

Gemini 1.5 Flash

Im Rahmen der I/O-Konferenz enthüllte Google auch das neue KI-Modell Gemini 1.5 Flash, das laut Google für seine schnelle und effiziente Arbeitsweise bekannt ist. Dieses Modell, das preislich unterhalb der Pro-Version angesiedelt sein soll, eignet sich besonders für die Analyse umfangreicher Dokumente und Code. Es bietet eine Leistung, die sich zwischen dem fortgeschrittenen Gemini 1.5 Pro und dem kleineren Modell, dem Gemini 1.5 Nano, einordnet. Gemini 1.5 Flash richtet sich vor allem an Entwickler:innen, die auf Googles Plattformen eigene KI-Anwendungen entwickeln möchten.

Projekt Astra – die Zukunft der KI-Assistenz

Projekt Astra, das bei der Präsentation als „die Zukunft der KI-Assistenz“ bezeichnet wurde, erweitert die Fähigkeiten von Gemini, um Gespräche natürlicher wirken zu lassen und schneller auf Informationen zu reagieren. Mithilfe einer Kamera auf einem Smartphone oder einer smarten Brille kann die KI die Umgebung analysieren und Fragen dazu beantworten. In einer Demonstration wird gezeigt, wie eine Nutzerin mit ihrer Smartphone-Kamera durch ein Büro geht und die KI auffordert, alle Geräuschquellen zu identifizieren, woraufhin sie eine Lautsprecherbox auf einem Tisch erkennt. Anschließend fragt sie nach dem Stadtteil, in dem sie sich befindet, und erhält auch hier eine präzise Antwort. Diese Live-Videofunktion soll über die neue Gemini App verfügbar gemacht werden, ein genauer Einführungstermin steht jedoch noch aus.

DDie Google I/O 2024 hat gezeigt, dass das Unternehmen mit hochfunktionalen KI-Lösungen diverse Touchpoints in der Digitalbranche mit neuen Potentialen ausstattet, nicht zuletzt die Suche. Mit den neuen Funktionen und Tools, die auf dieser Konferenz vorgestellt wurden, setzt Google neue Standards in der Technologiebranche und ebnet den Weg für weitere Alltagsintegrationen von KI. Nur einen Tag vor Googles großer Konferenz hat OpenAI mit dem neuen Modell GPT-4o vorgelegt. Der Termin einen Tag vor der Google I/O war sicherlich nicht zufällig gewählt.  


OpenAI launcht GPT-4o für alle User, GPTs für Free User und bessere AI-Voice-Optionen

GPT-4o-Schriftzug auf buntem Hintergrund
© OpenAI

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*