Anstieg

Der Anstieg zwischen einer Variante ν und der Kontrollvariante ν0 ist das relative „Delta“ in Konversionsraten, definiert als die folgende Berechnung, bei der die individuellen Konversionsraten wie oben definiert sind. Dies wird als Prozentsatz angezeigt.

Jederzeit gültige Konfidenzintervalle für einzelne Abwandlungen

Im Panel „Experimentieren“ in Journey werden „jederzeit gültige“ Konfidenzintervalle (Konfidenzsequenzen) für einzelne Abwandlungen in einem Experiment angezeigt.

Die Konfidenzsequenz für eine bestimmte Variante ν ist von zentraler Bedeutung für die von Adobe verwendete statistische Methodik. Die Definition finden Sie auf dieser Seite (reproduziert aus [Waudby-Smith et al.]).

Wenn Sie an der Schätzung eines Zielgruppen-Parameters ψ interessiert sind, z. B. der Konversionsrate einer Variante in einem Experiment, kann die Dichotomie zwischen einer Sequenz von „zeitlich festen“ Konfidenzintervallen (CIs) und einer zeiteinheitlichen Konfidenzsequenz (CS) wie folgt zusammengefasst werden:

Bei einem regulären Konfidenzintervall ist die Garantie der probabilistischen Methode, dass der Zielgruppen-Parameter innerhalb des Wertebereichs Ċn liegt, nur bei einem einzelnen festen Wert von n gültig (wobei n die Anzahl der Stichproben ist). Dagegen wird bei einer Konfidenzsequenz garantiert, dass jederzeit und bei allen Werten der Stichprobengröße t der „wahre“ Wert des Parameters von Interesse innerhalb der Grenzen liegt.

Dies hat einige tiefgreifende Auswirkungen, die für Online-Tests sehr wichtig sind:

  • Die CS kann optional aktualisiert werden, wenn neue Daten verfügbar sind.
  • Experimente können kontinuierlich überwacht, adaptiv angehalten oder fortgesetzt werden.
  • Der Fehler vom Typ I wird bei allen Stoppzeiten kontrolliert, einschließlich datenabhängiger Zeiten.

Adobe verwendet asymptotische Konfidenzsequenzen, die für eine einzelne Variante mit dem geschätzten Durchschnittswert μ diese Form haben:

Dabei gilt:

  • N ist die Anzahl der Einheiten für diese Variante.
  • σ ist eine Stichprobenschätzung der Standardabweichung (wie oben definiert).
  • α ist die gewünschte Fehlerrate des Fehlers vom Typ I (oder der Wahrscheinlichkeit einer Fehlabdeckung). Diese ist immer auf 0,05 festgelegt.
  • p2 ist eine Konstante, die die Stichprobengröße so anpasst, dass die CS möglichst dicht anliegt. Adobe hat den universellen Wert p2 = 10-2,8 gewählt, was für Konversationsraten geeignet ist, die in Online-Experimenten vorkommen.

Konfidenz

Die von Adobe verwendete Konfidenz ist eine „jederzeit gültige“ Konfidenz, die durch Umkehrung der Konfidenzsequenz für den durchschnittlichen Abwandlungseffekt erzielt wird.

Genauer gesagt, gibt es in einem Test mit zwei Stichproben von t, bei dem auf den Unterschied zwischen den Mittelwerten zweier Varianten getestet wird, eine 1:1-Zuordnung zwischen dem p-Wert für diesen Test und das Konfidenzintervall für die Differenz der Mittelwerte. In Analogie dazu kann ein jederzeit gültiger p-Wert erlangt werden, indem die (jederzeit gültige) Konfidenzsequenz für die Schätzung des durchschnittlichen Abwandlungseffekts invertiert wird:

Hierbei ist E eine Erwartung. Die verwendete Schätzung ist eine Schätzung mit umgekehrter Tendenzgewichtung (inverse propensity weighted, IPW). Angenommen, es gibt N = N0 +N1 Einheiten, mit Variantenzuweisungen für jede Einheit i, die durch Ai=0,1 gekennzeichnet sind, wenn die Einheit der Variante ν=0,1 zugewiesen ist. Wenn den Benutzenden eine feste Wahrscheinlichkeit (Tendenz) π0, (1-π0) zugewiesen wird und ihre Ergebnismetrik Yi ist, dann ist die IPW-Schätzung für den durchschnittlichen Abwandlungseffekt:

Mit der Feststellung, dass f die Einflussfunktion ist, zeigten Waudby-Smith et al., dass die Konfidenzsequenz für diese Schätzung wie folgt ist:

Wenn die Zuweisungswahrscheinlichkeit durch ihre empirischen Schätzungen: π0 = N0/N ersetzt wird, kann der Varianzbegriff als Funktion der Mittelwertschätzungen μ0,1 einzelner Stichproben und der Standardabweichungsschätzungen σ0,1 ausgedrückt werden als:

Beachten Sie als Nächstes, dass für einen regelmäßigen Hypothesentest mit Teststatistik z = (μA0p) eine Korrespondenz zwischen p-Werten und Konfidenzintervallen beseht:

wobei Φ die kumulative Standard-Normalverteilung ist. Bei jederzeit gültigen p-Werten, können wir in Anbetracht der Konfidenzsequenz für den oben definierten durchschnittlichen Abwandlungseffekt diese Beziehung umkehren:

Und schließlich ist die jederzeit gültige Konfidenz:

Ein Experiment für schlüssig erklären

Bei einem Experiment mit zwei Testverzweigungen zeigt das Panel „Experimentieren“ in Journey Optimizer eine Nachricht an, dass ein Experiment schlüssig ist, wenn die jederzeit gültige Konfidenz 95 % überschreitet (d. h. der jederzeit gültige p-Wert unter 5 % liegt).

Wenn mehr als zwei Varianten vorhanden sind, wird die Bonferonni-Korrektur angewendet, um die familienspezifische Fehlerquote zu kontrollieren. Bei einem Experiment mit K Abwandlungen und einer einzigen Baseline-Abwandlung (Kontrolle) gibt es K-1 unabhängige Hypothesentests. Die Bonferonni-Korrektur bedeutet, dass wir die Null-Hypothese ablehnen, dass die Kontrolle und eine bestimmte Variante über die gleichen Mittelwerte verfügen, wenn der jederzeit gültige p-Wert (wie oben definiert) unterhalb des Schwellenwerts von α/(K-1) liegt.

Testverzweigung mit dem besten Ergebnis

Wenn ein Experiment als schlüssig erklärt wird, wird die Testverzweigung mit dem besten Ergebnis angezeigt. Dies ist die Testverzweigung mit der besten Performance (höchster Mittelwert oder höchste Konversionsrate) aus dem Satz, der die Kontrolle enthält, und aus allen Testverzweigungen mit einem p-Wert unterhalb des Bonferroni-Schwellenwerts.