Conversion Optimierung

E-Commerce: Gefahren & Potentiale beim A/B-Testing

Was bedeutet Signifikanz, was sind Fehler erster Art und welche häufigen Fehler solltest du auf gar keinen Fall machen?

© Pablo Garcia Saldaña - Unsplash

Um die Performance eines Online-Shops zu erhöhen, wird oft viel Zeit und Geld in die Verbesserung des Web-Auftritts investiert. Umso ärgerlicher ist es, wenn diese Änderungen gar nicht zu einer langfristigen Verbesserung führen, da sie nicht richtig erprobt wurden. Um dieses Problem zu umgehen, werden gerne A/B-Tests eingesetzt, die auf Basis von statistischen Gesetzen die neuen Änderungen evaluieren und somit eine zuverlässige langfristige Prognose liefern. In diesem Artikel wird anschaulich gezeigt, wie solche Tests funktionieren und welche schnell gemachten Fehler man unbedingt vermeiden sollte.

Wie funktioniert ein A/B-Test?

Die Grundidee eines A/B-Tests ist wie folgt: Man vergleicht die aktuelle Variante A des Web-Auftritts mit einer neuen Variante B bezüglich einer KPI. Zum Beispiel möchten wir, in der Hoffnung, die Conversionrate zu erhöhen, eine 5 €-Gutscheinkampagne ausspielen. Nun wird die Hälfte der Besucher die alte Version A (ohne Kampagne) sehen, die andere Hälfte die neue Version B (mit Kampagne). Wichtig ist dabei, dass die beiden Versionen zur gleichen Zeit und nicht nacheinander verwendet werden.

Anschließend wird die Conversionrate der beiden Gruppen verglichen und somit die bessere Version bestimmt.

Die Version B der Website, rechts am Rand der zu testende Gutschein. Version A wird ohne Gutschein ausgespielt.

Die Größe der Stichprobe ist entscheidend

Woher weiß man, wie lange der A/B-Test durchgeführt werden muss?

Beispiel: Mit jeweils 50 Besuchern in beiden Varianten beobachten wir eine Conversionrate von 10% (5 Käufer) in der alten Variante A ohne Kampagne und 12% (6 Käufer) in der neuen Variante B mit Kampagne.

Sind die zusätzlichen 2% durch die Kampagne entstanden? Oder handelt es sich um einen Zufall? Oder anders gefragt: Wie findet man heraus, ob die neue Variante wirklich besser ist? Um das zu erklären, verwenden wir die Analogie eines Münzwurfs.

Stellen wir uns vor, wir werfen 10-mal eine faire Münze. Im Mittel sollten wir Zahl und Kopf gleich oft erhalten, also 5:5. Das passiert aber nur in ca. 25% der Fälle. In den anderen Fällen erhalten wir Ergebnisse 4:6, 6:4, 3:7, 7:3, usw.

Bei unserem Beispiel oben ist die Idee die gleiche, nur dass unsere Münze gezinkt ist, also die Chance auf Kopf (oder Kauf) nicht bei 50% liegt, sondern bei 10%.

Kopf – Der Besucher kauft, Zahl – der Besucher kauft nicht.

Kann es nicht also sein, dass wir bei Variante B einfach Glück beim Wurf der Münze hatten? Diese Frage kann man beantworten, indem man das Beispiel mit Hilfe des Münzwurfs mathematisch nachstellt.


Experiment: Wir werfen 50-mal mit einer gezinkten Münze, die in 10% der Fälle Kopf zeigt. Die Grafik zeigt an, wie hoch die Wahrscheinlichkeit ist, eine bestimmte Anzahl an Kopf-Würfen zu erhalten. In 38% der Fälle (grün) erhalten wir öfter als 5-mal Kopf.


Mit anderen Worten: Die Wahrscheinlichkeit, dass eine Conversionrate von 12% oder mehr rein zufällig auftritt, liegt bei 38%. Das ist natürlich nicht sehr zufriedenstellend.

Wir lassen den A/B-Test also weiterlaufen und erhalten folgendes Ergebnis:

Mit jeweils 500 Besuchern in beiden Varianten beobachten wir eine Conversionrate von 10% (50 Käufer) in der alten Variante A ohne Kampagne und 12% (60 Käufer) in der neuen Variante B mit Kampagne.

Wir stellen uns wieder die gleiche Frage und führen erneut das gleiche Experiment durch.


Experiment: Wir werfen 500-mal mit einer gezinkten Münze, die in 10% der Fälle Kopf zeigt. In 8% der Fälle (grün) erhalten wir 60-mal oder öfter Kopf.


Jetzt ist es also unwahrscheinlich, dass die Conversionrate von 12% rein zufällig aufgetreten ist, d. h. die Prognose, dass Variante B besser funktioniert, ist sicherer als vorher.

Ist einem das immer noch zu unsicher: Bei 5000 Würfen liegt die Wahrscheinlichkeit, 600-mal oder öfter mit der gezinkten Münze Kopf zu werfen, bei 0,0002%.

Bei diesem Beispiel sind wir davon ausgegangen, dass die 10% Conversionrate als Grundannahme gültig ist. Hier gibt es auch andere Ansätze, welche beide Versionen infrage stellen.

A/B-Testen ist Hypothesen-Testen

Der Ansatz von oben ist eine von vielen Möglichkeiten einen sogenannten Hypothesentest durchzuführen. Bei einem Hypothesentest gibt es zwei wichtige Konzepte: die Nullhypothese und die Alternativhypothese. Im klassischen Fall besagt die Nullhypothese, dass die beiden Varianten A und B identisch sind, während die Alternativhypothese besagt, dass sie es nicht sind. Es wird immer zuerst von der Nullhypothese ausgegangen, bis sie abgelehnt wurde.

Zusätzlich muss man einen Grenzwert (p-Wert) festlegen, der das Signifikanzniveau bestimmt. Diesen kann man interpretieren als eine Grenze, ab wann etwas “unwahrscheinlich” ist. Ist ein Phänomen unwahrscheinlich, wenn es nur in 15% aller Fälle auftritt, oder wenn es nur in 1% aller Fälle auftritt? Diese Frage muss man sich vor dem Test beantworten, häufig werden 5%, 1% oder 0.5% gewählt.

Daumenregel: Je kleiner der p-Wert, desto mehr Daten benötigt man und desto sicherer kann man sein, wenn die Nullhypothese widerlegt wird.

In dem Beispiel oben besagt die Nullhypothese, dass die Variante ohne Kampagne eine mindestens so hohe Conversionrate hat wie die Variante mit Kampagne. Die Alternativhypothese besagt wiederum, dass die Variante mit Kampagne eine höhere Conversionrate als die Variante ohne Kampagne hat.

Wählen wir 15% als p-Wert, so können wir bei dem Test mit 500 Besuchern pro Variante die Nullhypothese ablehnen, da die Wahrscheinlichkeit, dass die Variante mit Kampagne eine 2% höhere Conversionrate hat, rein zufällig nur in 8% der Fälle auftritt. Würden wir 5% als p-Wert wählen, würden wir die Nullhypothese nicht ablehnen können. Man entscheidet also selbst, welches Risiko man eingeht.

A/B-Test mit Produktempfehlungen

Der häufigste Fehler beim A/B-Testing

Doch egal wie klein der p-Wert gewählt wird, es ist nie ganz ausgeschlossen, dass die Nullhypothese abgelehnt wird, obwohl sie wahr ist. Dies nennt man einen Fehler erster Art.

Eine sehr häufig angewandte und fatale Vorgehensweise bei A/B-Tests ist die, dass er auf vorerst unbestimmte Zeit durchgeführt wird. Man testet bis “Signifikanz erreicht ist”. Das Problem bei diesem Vorgehen liegt darin, dass immer wieder Signifikanztests durchgeführt werden und jedes Mal das Risiko eingegangen wird, einen Fehler erster Art zu machen. Dieses Vorgehen lässt sich auch als p-Hacking interpretieren.

Überspitzt gesprochen: Wenn wir einen p-Wert von 5% wählen (also 1 in 20) und dann 20 Tage lang jeden Tag einen Test durchführen, ist es sehr gut möglich, dass zwischendurch ein Tag auftritt, bei dem rein zufällig der p-Wert von 5% unterschritten wird. An diesem Tag wird die Nullhypothese abgelehnt und der A/B-Test fälschlicherweise beendet.

Man kann dieses Problem umgehen, indem man den p-Wert deutlich niedriger wählt, oder indem man die Laufzeit des A/B-Tests vorher großzügig festlegt und diesen erst evaluiert, wenn diese erreicht ist.

Denkbar ist auch ein A/B-Test für die Farbe des Werbemittels

Ausblick: Bayessche Statistik

Der klassische Hypothesentest hat leider auch Nachteile, wie das folgende Beispiel verdeutlicht:

Beispiel: Wir haben in vorherigen A/B-Tests festgestellt, dass 5€-Gutscheinkampagnen die Conversionrate von 10% auf 12% erhöhen. Wir starten nun eine neue Kampagne mit einem 8€-Gutschein. Nachdem die Kampagne 50 Besuchern angezeigt wurde, liegt die Conversionrate bei 20% (10 Käufer).

Dass die Conversionrate der 8€-Kampagne langfristig bei 20% liegt, ist sehr unwahrscheinlich, da wir bereits wissen, welchen Einfluss die 5€-Kampagne hatte. Dieses Vorwissen lässt sich in Hypothesentests, wie wir sie oben durchgeführt haben, nicht einbringen, und wir müssen naiv erneut einen A/B-Test durchführen, der viel Zeit in Anspruch nimmt.

Eine Alternative bieten hier Hypothesentests aus der Bayesschen Statistik, welche bereits vorhandenes Vorwissen (hier von der 5€-Kampagne) in unseren Test einfließen lassen. Diese Tests können mit weniger Daten gleichwertige Prognosen erstellen, wodurch der A/B-Test bei gleicher Qualität schneller abgeschlossen werden kann. Diese Art von Test hat den Nachteil, dass sie erheblich komplizierter ist und man sich sicher sein muss, dass das Vorwissen auch relevant ist. Kann man beispielsweise das Vorwissen von 5€-Gutscheinen auch auf 100€-Gutscheine übertragen?

Unabhängig davon für welche A/B-Testing Methode man sich entscheidet, bei korrekter Ausführung lassen sich mit ihrer Hilfe Web-Auftritte signifikant verbessern.

Über Dr. Torge Schmidt

akanoo.com

Dr. Torge Schmidt hat in Mathematik promoviert und arbeitet als Data Scientist bei Akanoo, wo er neue Prognosemodelle entwickelt und statistische Analysen durchführt. Akanoo ist als schnell wachsendes Digitalunternehmen auf die Bereiche Predictive Analytics und Optimierung der Conversionrate & Customer Journey spezialisiert. Die Technologie analysiert das Nutzerverhalten in Online-Shops und spielt personalisierte Kampagnen aus. So schafft Akanoo ein persönliches Einkaufserlebnis.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.