Reporting  ist die Dokumentation von Abweichungen – Analyse ist das Erklären von Abweichungen – Testing ist das Herbeiführen von Abweichungen.

Klug ist, wer aus seinen Fehlern lernt…

und eine der schönsten Methoden dafür ist das Testing.

Was das mit Fehlern zu tun hat? Nun, grob betrachtet ist bei einem A/B Test eine Version falsch, oder der Test, also beide Versionen. Die Variante, dass auch beide Versionen richtig und damit der Test falsch sein kann, macht es nicht besser. Aber schon an dieser Stelle haben wir eins der wichtigsten Dogmen des Testings erreicht:

„Wenn sich die Testobjekte nicht unterscheiden, unterscheiden sich auch die Ergebnisse nicht“

Sollte sich herausstellen, dass sich die Ergebnisse sehr wohl unterscheiden, so sind entweder die Testobjekte für die Probanden (Nutzer) unterschiedlich, oder die Probanden. Letzteres ist meist eine andere Formulierung für „es war nicht genug Traffic“.

Genug der Einführung, wie geht das denn nun mit dem Testing?

Denken wir mal von hinten nach vorne. Ziel des Tests ist ein Erkenntnisgewinn zu einem Thema, sei es „Calls to Action – außerhalb des sichtbaren Bereichs sind egal“, sei es „grüne Knöpfe werden häufiger geklickt als graue“,  sei es „unseren Nutzern sind emotionale Bilder (mittlerweile auch) egal“. Es wäre also schön, wenn wir am Schluss zwei Nutzergruppen mit zweifelsfrei unterschiedlichem Verhalten hätten, und diese Nutzergruppen eindeutig zu  den beiden Alternativen des Themas gehören würden. Wohlgemerkt „des Themas“. Denn natürlich lassen sich alle drei Themen problemlos in zwei Testalternativen einbauen. So problemlos, dass dies permanent geschieht. Nur Auswerten lässt es sich leider nicht. Unsere Testobjekte müssen also in einer klaren Argumentationskette zu den Themen führen – und nicht umgekehrt. In der Praxis bedeutet das: Prüfen Sie vor dem Start des Tests, wieviele und welche Gründe es für ein unterschiedliches Verhalten geben könnte. Dann ändern Sie bitte die Testobjekte und ggf. das Setup solange, bis es nur noch einen Grund gibt.

Das Setup auch? Ja, wenn wir in einem Prozess einen hohen Stammbesucheranteil haben und versuchen wollen, bestimmte Funktionen optisch mehr hervorzuheben, sollten wir ggf. nur Neubesucher betrachten, die das „unauffällige“ Design noch nicht gelernt haben. Manch einer mag auch nur die Stammbesucher betrachten. Im Zweifelsfall bilden Sie in solchen Fällen Segmente, um zu sehen, wo der Einfluss besonders groß war.

Neben den Testobjekten und dem Testszenario bitte ich auch alle möglichen Störquellen zu beachten. Fragen Sie sich (und Ihre Kollegen), wie es möglich wäre, den Test zu sabotieren. Zu den besonders erfolgreichen Störungen gehören Marketingkampagnen. Wenn zeitgleich zum Testzeitraum das Vergütungsmodell im Affiliate-Netzwerk verändert wird, bekommen Sie eventuell valide Ergebnisse, übertragbar auf andere Zeiträume sind sie ziemlich sicher nicht. Ähnlichen Einfluss können, je nach Zielgruppe, Schlechtwetterperioden, Fußballweltmeisterschaften oder königliche Hochzeiten haben.

Ein kluger Mann macht nicht alle Fehler selbst. Er gibt auch anderen eine Chance. – Winston Churchill

Noch so ein Allgemeinplatz. Trotzdem richtig. Nur wie machen wir’s?  Um das gleich vorweg zu sagen, wenn Sie ein einsamer Einzelkämpfer sind, der sich alle Test selbst ausdenkt, haben Sie wenig Chance von Anderen zu lernen. Sobald aber bei Ihnen zwei Abteilungen oder Arbeitsgruppen Tests initialisieren, können diese voneinander lernen. Zumindest manchmal. Um aus (fremden) Tests lernen zu können, brauchen wir nämlich vier Voraussetzungen.

  1. Sie müssen von den anderen Tests wissen.
  2. Die Tests müssen dokumentiert sein.
  3. Tests müssen übertragbar sein.
  4. Machen Sie Tests übertragbar, indem Sie Thesen testen.

Die ersten beiden Punkte sind reichlich offensichtlich. Der dritte Punkt erscheint aber eventuell dem einen oder anderen im eigenem Umfeld unerfüllbar. Wie soll die Feststellung, dass Version B besser war, übertragbar sein? Solange „Version B“ nur für ein Bild steht, ist es auch nicht übertragbar.

Der vierte Punkt ist insofern eine Folgerung: „Thesen testen“ haben Sie vermutlich schon mehrfach gehört. Nur was eine These auszeichnet, wird selten erklärt. Dabei ist das in diesem Fall einfach: Wenn die Erkenntnis als „Goldene Regel“ auf andere Fälle in Ihrem Unternehmen übertragbar sein soll, dann ist es eine These. Eine schöne Goldenen Regel wäre zum Beispiel: „Wir brauchen auf unseren Detailseiten Informationen und Emotionen, früh morgens und während der Arbeitszeiten sollten die Informationen leicht überwiegen, abends und am Wochenende die Emotionen“. Diese Regel können Sie der Agentur und den Kollegen übergeben und die können damit arbeiten. Zumindest ein bisschen. Denn was genau unter „leicht überwiegen“ zu verstehen ist, ist ja völlig unklar. Auf dieser Ebene werden wir also doch wieder Bilder ausprobieren müssen. Und das  ist auch völlig in Ordnung.

Dumm ist, wer glaubt, Lernen ginge ohne Fehler.

Wer A sagt, der muss nicht B sagen. Er kann auch erkennen, dass A falsch war. – Bertold Brecht

Trotz sorgfältiger Planung sind insbesondere die ersten Tests  eines Unternehmens oft nicht aussagekräftig. Und damit Verschwendung? Nein, keineswegs! Verschwendung wird es nur, wenn Sie keine Zeit finden, die Ursachen zu ermitteln und mit den Kollegen Gegenmaßnahmen für die Zukunft zu erarbeiten.

Bis demnächst,

Heiko Vosberg

… und Targeting ist das Ausnutzen von Abweichungen.

Tagged on:                     

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.