Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Mobile Marketing
Zukunft der Werbung: Audio Content Recognition als Alternative zu Cookies und Identifiern

Zukunft der Werbung: Audio Content Recognition als Alternative zu Cookies und Identifiern

Ein Gastbeitrag von Francois Roloff | 17.03.21

Die Audio-Recognition-Technologie bietet einen Lösungsansatz abseits von Third Party Cookies und IDFA. Wie das funktioniert und wo es angewendet werden könnte, erklärt der Beitrag.

Die Werbebranche steht vor einem Paradigmenwechsel. Nachdem Nutzer:innen eine Vielzahl ihrer Daten im Internet preisgeben mussten, erhalten sie nun schrittweise die Hoheit über ihre Informationen zurück. Begonnen hatte dieser Umbruch im Web-Bereich nach Inkrafttreten der DGSVO und der E-Privacy-Richtlinie, während Mozilla, Apple und nun auch bald Google mit dem Blockieren von Third Party Cookies reagieren. Das App Marketing war bisher von dieser Entwicklung weitgehend verschont geblieben, da es anstelle der Cookies mit Geräte-IDs arbeitete und weiterhin User gezielt mit Werbemaßnahmen ansprechen konnte. Mit der Einführung seines App Tracking Transparency Frameworks (ATT) im Frühjahr 2021 schiebt Apple aber auch diesen Tracking-Methoden konsequent den Riegel vor: Ohne Zustimmung der Nutzer:innen wird die IDFA zu Werbezwecken nicht mehr verwendet werden können.

Apples Ankündigung trifft das Mobile-Marketing-Ökosystem hart: Erwartet werden massive Umsatzeinbrüche. Aber machen wir uns nichts vor: Die Obsoltemachung des IDFA ist nur ein weiterer Schritt raus aus der Grauzone des Daten-Tracking und hin zu einer datenschutzkonformen und damit privacy-freundlichen Nutzer:innenansprache. Werbetreibende und Mobile-AdTech-Anbieterunternehmen müssen schleunigst umdenken – nur die kreativsten Player, die die Krise als Chance begreifen, können sich mit innovativen Technologien ganz weit nach vorne bringen.

Eine technologische Spielwiese für das Mobile Marketing

Das gesamte Ökosystem muss sich von dem Gedanken verabschieden, dass IDs in naher Zukunft wieder eine Rolle spielen könnten. Eine nutzer:innenfreundliche Werbung kann nur ohne Advertising IDs und stattdessen auf Grundlage von Content, Consent, Kontext und Affinität funktionieren und nicht mit einem Äquivalent zum IDFA. Targeting auf dem Mobile Device kann zukünftig nicht mehr nur vom Surfverhalten der User oder ihren Einkäufen abhängig gemacht werden.

Viel spannender ist es, Inhalte aus der Umgebung der Nutzer:innen als Basis für die Kontextualisierung zu nutzen. Aber wie lässt sich die Umgebung der User erkennen? Womit beschäftigten sie sich und wo befinden sie sich aktuell? Hierfür gibt es bereits jetzt mit den Metadaten wie geographischer Standort und Wetter verschiedene Parameter, die Auskunft darüber geben und für die Echtzeitanalyse wichtig sind. Aber auch Sounds und Audiodaten sind in unserem Alltag allgegenwärtig, ob vom Mobile Device selbst oder im Radio, Fernsehen oder anderen Kanälen abgespielt – mit der passenden Technologie kann dies ein wesentlicher Baustein dafür sein, Nutzer:innen in ihrer Umgebung besser zu verstehen und gezielt anzusprechen.

Hier kommt die Audio-Content-Recognition-Technologie (ACR) ins Spiel, wie etwa aus der zur Identifizierung von Musiktiteln beliebten App Shazam bekannt. Der Ansatz für ein semantisches Targeting ist hier die Verarbeitung von Audio-Daten in Echtzeit: Audio-Signale können zu relevanten Informationsträgern für die jeweiligen Momente und für die Affinität der einzelnen Nutzer:innen mobiler Geräte werden. Wer die Technologie weiterdenkt, erkennt, dass Werbemaßnahmen kanalübergreifend möglich werden und sich nicht mehr nur im Mobile-Kosmos abspielen müssen. Denn in unserer Mobile-zentrierten Welt haben viele User ihr Smartphone immer zur Hand. Sehr viele Menschen scrollen beim Fernsehen durch Apps und diverse Fernsehzuschauer:innen nutzen das Smartphone als zweiten Bildschirm. TV-Spots und Radiowerbung können also aktiv in mobile Kampagnen mit einbezogen und viel mehr noch: Diese Kampagnen können durch Broadcast-Signale ausgelöst beziehungsweise optimiert werden.

Broadcast trifft Mobile: Schlüssel-Schloss-Prinzip mit Audiodaten

Wie funktioniert die Automated Content Recognition, um Audiosignale überhaupt für das mobile Targeting nutzbar zu machen? Sie extrahiert die Audio-Sequenz zu einem einzigartigen Audio-Schlüssel. Ein Key, der nicht größer als ein Kilobyte ist, der aber in Echtzeit wiedererkannt werden kann, sobald die entsprechende Sequenz abgespielt wird. Der Schutz der Privatsphäre ist dabei gewährleistet: Das Device kann nur auf die entsprechende Sequenzdatei reagieren, weil es durch einen bestimmten Audio-Content oder ein Watermark (eine Sequenzdatei, die nur technisch triggert) angesprochen wurde – das Smartphone hört nicht mit.

Das Triggern kann einerseits dadurch geschehen, dass der Sequenzschlüssel (zum Beispiel eines TV-Spots) direkt über das Mikrophon des Mobile Device erkannt wird. Die Zukunft wird aber so aussehen, dass der Sequenzschlüssel sich in einem Datenstrom befinden wird, der aus allen TV-Ausstrahlungen aller Sender in einem Land besteht – und direkt hier erkannt wird. Ausgelöst wird dann ein digitales Event, zum Beispiel eine Kampagne, die in einer App sichtbar gemacht wird. In einem anderen Einsatzszenario könnte das Mobile Device dank ACR erkennen, dass es sich in einem lokalen Shop aufgehalten hat, Nutzer:innen qualifizieren sich damit beispielsweise für einen Coupon.

Die Technologie ließe sich inklusive der SDK in jede beliebige App einbauen, zum Beispiel in die eines großen Möbelhauses. Wenn User nun durch die Ausstellungsräume des Geschäfts schlendern, können sie durch unterschiedliche Watermarks an verschiedenen Sound-Schnittstellen lokalisiert werden. Die Technologie erkennt dabei genau, in welchem Gang sie sich gerade befinden und kann ihnen so gezielte Shopping-Tipps oder passende Einrichtungsvorschläge zur Verfügung stellen.

Ein gewaltiger Push für SEA-Kampagnen

Jede Musik, jedes Video und jeder Jingle, der im Fernsehen oder im Radio läuft, kann also auf eine kurze, aber individuelle und wiedererkennbare Sequenz heruntergebrochen werden. In Verbindung mit Technologien, die ursprünglich für Search Ads vorgesehen waren, können Marketer Momente der TV-Spotausstrahlung für bestimmte Affinitätseffekte nutzen. In der Praxis wird also vorab ein Zeitfenster definiert, das beispielsweise mit der Ausstrahlung eines bestimmten Werbespots beginnend einige Minuten andauert. Sehen Nutzer:innen den TV-Spot, werden innerhalb dieses Zeitfensters deren Suchanfragen in Suchmaschinen zu den vom Werbetreibenden definierten Keywords gewonnen. Ein weiteres Beispiel in einem Streaming Kontext: User schauen sich eine Serie bei einem bestimmten Streaming-Dienst an, die aufgrund von sogenannten digital Watermarks vom eigenen Mobile Device erkannt wird. Sofort wird ein Prozess ausgelöst, der entweder werbliche Maßnahmen auf dem Smartphone für eine neue, wahrscheinlich für die User interessante Serie desselben Streaming-Dienstes triggert, oder aber passende Content-Empfehlungen eines konkurrierenden Dienstes auslöst.

Fazit

Die Technologie ist da und sie funktioniert. Aber wie immer, wenn es um Innovationen geht, gibt es noch einige Hürden, die es zu überwinden gilt. Eine Herausforderung ist es, eine ausreichende Datenmenge, sprich Abdeckung aller Broadcast-Signale aller Sender, in Sequenzschlüssel-Quellen zu generieren. Es gibt bereits Tech-Unternehmen, die Broadcast-Signale in Echtzeit scannen und aus den daraus generierten Informationen einen Daten-Feed generieren, den sie für einen potentiell passenden Audio-Key bereithalten. Das ist ein guter Anfang, idealerweise müssen noch mehr Möglichkeiten gefunden werden, die diese Sequenzen entsprechend verarbeiten können, damit den Nutzer:innen relevante Werbung ohne personenbezogene Daten ausgespielt werden kann. Der Aufwand lohnt sich, denn sind die Weichen erst einmal gestellt, können Werbetreibende eine Search-Ad-Kampagnen-Optimierung mitsamt Kosteneffizienz-Steigerung erwarten. Ganz ähnlich verhält es sich mit der Reichweite.

Das präziseste Bild zu Nutzer:innen und/oder Audiences erhält man entweder mit Login-Daten oder aber mit einer Kombination aus Echtzeit, Umgebung, Nutzungskontext, geographischem Standort und Wetterdaten. Natürlich werden Kontext und Semantik die derzeitigen Targeting-Strategien nicht gänzlich ersetzen können. Wir sollten aber daran arbeiten, alle verfügbaren Maßnahmen stetig zu verbessern – auch im Interesse der User. Sobald die IDFA mit dem Update von Apple vom Tisch ist und sich die User im Zweifel gegen ein Tracking entscheiden können, wird auch die User Experience leiden, denn Werbung wird zwar nach wie vor ausgespielt werden, aber an den individuellen Interessen vorbei. Retargeting oder Reactivation von Nutzer:innen einer App werden ohne die IDFA nicht mehr umsetzbar sein, aber auch hier wird sich das Ökosystem schon bald eine Strategie einfallen lassen. Das Ziel lautet, personalisierte und relevante Werbung losgelöst von Cookies und IDFA/GAID zu entwickeln und zu etablieren, bei der keine persönlichen Informationen der Nutzer:innen gespeichert werden müssen. Die Audio-Recognition-Technologie weist diesen Weg in eine nutzer:innenfreundliche Zukunft der Werbung, die Sound- und Audiodaten als Basis für Nachverfolgung und Attributionen vollkommen DSGVO-konform nutzt.

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*