Kostenlos testen Login
Home » Blog » Wann kann ein A/B-Test gestoppt werden?

Wann kann ein A/B-Test gestoppt werden?

28. August 2018

AB-Test_stopp_Newsletter2Go

A/B-Tests erfolgreich durchführen – So geht’s!

Michael_kamelleon_Newsletter2Go

Michael Witzenleiter

A/B-Tests gehören heute zum Online-Marketing wie die Sonne zum Sommer oder der Kaffee zum Kuchen. Als Marketing-Experte sollten Sie sich deshalb nicht mehr die Frage stellen, ob Sie Tests auf Ihrer Webseite durchführen möchten, sondern, wie Sie diese am effektivsten gestalten und welche Regeln dabei zu beachten sind. Wir möchten das Feld heute von hinten aufrollen und uns der Frage widmen, wann Tests gestoppt werden sollten. Michael Witzenleiter, Geschäftsführer der Kameleoon GmbH, erklärt Ihnen, worauf Sie achten müssen.

Gibt es den perfekten Zeitpunkt einen A/B-Test zu stoppen?

Wir möchten Ihnen keine falschen Hoffnungen machen und müssen deshalb gleich zu Beginn erwähnen, dass es keine allgemeingültige Zauberformel gibt, die Ihnen den perfekten Zeitpunkt für das Stoppen Ihres Tests herbeihext. A/B-Tests sind oft komplex und daher hängt deren optimaler Stoppunkt auch von verschiedenen Faktoren ab. Einfach wäre doch langweilig!
Keine Angst – wir haben keine Neuinterpretation der Relativitätstheorie in Petto. eMit ein paar Tricks und Insights sind Sie bestens gerüstet und können bald zum A/B-Test-Experten werden. Zunächst sei aber eins festzuhalten: Damit Tests zuverlässig, also reliabel sind, müssen sie in erster Linie auch statistisch valide sein. Und um dies zu erreichen, müssen einige Kriterien erfüllt sein.

Die wichtigsten Kriterien für ein erfolgreiches A/B-Testing

Die Stichprobengröße bestimmen:

Beginnen wir mit den Basics der Statistik. In jedem statistischen Experiment wird immer nur eine Teilgruppe aller möglichen Versuchspersonen gewählt, die dann die gesamte Bevölkerung repräsentieren soll. Dem gleichen Prinzip folgend wird auch nur eine Stichprobe all Ihrer Besucher in den Test miteinfließen. An dieser Stelle gilt: Je größer die Stichprobe, desto präziser sind die Ergebnisse. Mit der zufällig ausgewählten  Teilgruppe geht die Annahme einher, dass das Verhalten dieser Besucher Ihre gesamte Audience repräsentiert.  Bei einer zu kleinen Stichprobe besteht die Gefahr, dass die Daten extreme Ausprägungen aufweisen und nicht statistisch signifikant sind. Warten Sie also, bis Ihre Stichprobe ausreichend groß ist und merken Sie sich in diesem Zusammenhang: The bigger, the better.

Die Dauer festlegen:

Auch wenn der Besucheransturm auf Ihre Webseite so groß ist, dass Sie innerhalb weniger Tage oder sogar Stunden eine ausreichend große Stichprobe generiert haben, ist dies noch lange keine Erlaubnis zum Stoppen. Ihr Test sollte mindestens sieben Tage laufen – oder ein bis zwei Geschäftszyklen. Warum? Weil angenommen wird, dass innerhalb dieser Zeit die höchste Repräsentativität für Ihre Stichprobe erreicht wird. Das Besucherverhalten schwankt an Wochenenden, wenn Sie gerade einen Newsletter verschickt haben oder bei bestimmten Aktionen. Ein angemessener Zeitraum für die Testdauer beugt solchen Schwankungen vor und lässt die Reliabilität Ihrer Tests steigern. Daher gilt auch: wenn Sie den Test verlängern, dann immer um eine gesamte Woche (bzw. Geschäftszyklus).

Das Konfidenzlevel anstreben:

Das Konfidenzlevel gibt die Wahrscheinlichkeit an, zu welcher ein Ergebnis nicht zufällig ist, sondern bei Wiederholung des Experiments wieder und wieder erzielt werden würde. Für Ihren Test sollten Sie ein Konfidenzlevel von mindestens 95% anstreben – und den Test erst dann stoppen. Dieser Wert bedeutet, dass es immer noch eine Wahrscheinlichkeit von 5% gibt, dass die Ergebnisse Ihres Tests rein zufällig waren. Daher: trauen Sie keinem Test unter 95%. Nicht 90%. Nicht 80%.

Die Ergebnisstabilität:

Signifikanzniveau und Conversion-Raten müssen stabil sein, bevor Sie einen Test beenden können. Schwankungen zu Beginn sind nicht ungewöhnlich, denn Besucher reagieren auf die Veränderungen (auch Neuigkeitseffekt genannt). Ausreißer fallen am Anfang bei geringer Datenmenge außerdem mehr ins Gewicht. Je mehr Daten Sie haben, desto näher kommen Sie jedoch dem „echten Wert“ (Regression zur Mitte) und die Signifikanzkurve wird flacher.

Zusammenfassend lässt sich sagen, dass erst eine ausreichend große Stichprobe statistisch signifikante Ergebnisse ermöglicht. Hinzu kommt, dass die Testdauer sieben Tage nicht unterschreiten sollte. Vorsicht also, wenn eine ausreichend große Stichprobe schon nach kurzer Zeit erreicht ist. Ein Konfidenzlevel von 95% stellt ein ausreichend zuverlässiges Ergebnis dar. Letztendlich sollten aller Schwankungen zum Trotz das Signifikanzniveau und Conversion-Rate stabil sein.

Nun wissen Sie, worauf Sie achten müssen, bevor ein Test gestoppt werden kann. Wichtig ist, dass wirklich alle Bedingungen erfüllt sein müssen, bevor ein Stoppen sinnvoll und richtig ist. Ist dies nicht der Fall, riskieren Sie nicht nur Zeit, sondern auch Geld.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

    Newsletter2Go verwendet Cookies, um Ihnen den bestmöglichen Service zu gewährleisten. Wenn Sie auf der Seite weitersurfen stimmen Sie der Cookie-Nutzung zu. Ich stimme zu.