信頼性
アドビが使用する信頼性は、「常に有効な」信頼性であり、平均処理効果の信頼性シーケンスを反転することによって得られます。
正確には、2 つのバリアント間の平均値の差に対する 2 つのサンプル t テストでは、このテストの p 値と平均値の差の信頼区間の間に 1:1 のマッピングがあります。同様に、常に有効な p 値は、平均処理効果推定量の(常に有効な)信頼シーケンスを反転することによって得られます。
ここで E は期待値です。使用される推定量は、逆傾向重み付け(IPW)推定量です。N = N0 + N1 単位、単位がバリアント ν
=0,1 に割り当てられている場合、Ai=0,1 でラベル付けされた各単位 i
のバリアント割り当てを考慮してください。ユーザーに固定確率(傾向)π0, (1-π0) が割り当てられ、その結果指標が Yi である場合、平均処理効果の IPW 推定量は次のようになります。
f が影響関数であることに注意して、Waudby-Smith et al.では、この推定量の信頼性シーケンスが次のようになることを示しました。
割り当て確率をその経験的推定値で置き換えると、π0 = N0/N、平方偏差項は、個々のサンプル平均推定値 μ0,1 と標準偏差推定値 σ0,1 で次のように表すことができます。
次に、テスト統計量 z = (μA-μ0/σp) を使用した通常の仮説テストでは、p
値と信頼区間の間に対応関係があることを思い出してください。
ここで、Φ
は標準正規分布の累積分布です。常に有効な p
値については、上記で定義された平均処理効果の信頼性シーケンスを指定すると、この関係を反転できます。
最後に、常に有効な信頼性 は次のとおりです。
実験が決定的であると宣言する
2 つのアームを使用する実験の場合、Journey Optimizer の実験パネルには、常に有効な信頼性が 95%を超えた場合(常に有効な p
値が 5%未満)に実験が 決定的 であるというメッセージが表示されます。
3 つ以上のバリアントが存在する場合は、ファミリーごとのエラー率を制御するために、ボンフェローニ補正が適用されます。K
の処理と単一のベースライン(コントロール)処理による実験では、K-1
回の独立仮説テストが行われます。ボンフェローニ補正とは、常に有効な p
値(上記で定義)がしきい値 α/(K-1)
を下回っている場合、コントロールと特定のバリアントの平均が等しいという帰無仮説が棄却されることを意味します。
最もパフォーマンスの高いアーム
実験が決定的であると宣言されると、最もパフォーマンスの高いアームが表示されます。このアームは、コントロールを含むセットと、p
(ボンフェローニしきい値を下回る値)を持つすべてのアームの中で、最もパフォーマンスが高い(平均またはコンバージョン率が最も高い)アームです。