上昇率
次の図は、Target レポートの Lift と Confidence Interval of Lift を示しています。 数値はリフト範囲の平均を表し、矢印はリフトが正か負かを反映します。 信頼性が 95% を超えるまで、矢印はグレーで表示されます。 信頼性がしきい値を通過した後、矢印は正または負の上昇率に基づいて緑または赤になります。
エクスペリエンス ν とコントロールエクスペリエンス ν0 の間の上昇率は、コンバージョン率の相対的な「デルタ」で、次のように定義されます
個々のコンバージョン率が上記で定義されている場合。 より簡単に言えば、
Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control
コントロールエクスペリエンス ν0 のコンバージョン率が 0 の場合、上昇率はありません。
Confidence Interval of Lift
Average Lift and Confidence Interval 列のボックス図グラフは、平均値と 95% の Confidence Interval of Lift を表します。 特定の非制御エクスペリエンスの信頼区間と制御エクスペリエンスの信頼区間に重複がある場合、ボックスプロットはグレーになります。 指定されたエクスペリエンスの信頼区間の範囲が、コントロールエクスペリエンスの信頼区間の上または下の場合、ボックスプロットは緑または赤になります。
エクスペリエンス ν とコントロールエクスペリエンス ν0 の間の上昇率の標準誤差は、次のように定義されます。
すると、上昇率の 95% 信頼区間は次のようになります。
この計算では「Delta」メソッドを使用します。詳しくは、このドキュメントで 説明します
Confidence
最後の列には、Target レポートの信頼性が表示されます。 エクスペリエンスの信頼性とは、null 仮説が true の場合に観測された結果と同じ極端な結果が得られる確率(パーセンテージで示されます)です。 p 値に関しては、表示される信頼性は 1 - p 値 です。 直感的には、信頼性が高いほど、コントロールエクスペリエンスとコントロール以外のエクスペリエンスのコンバージョン率が等しくなる可能性が低くなります。
ま Target、テストエクスペリエンスと制御エクスペリエンスの間で両側 Welch の t 検定 が行われ、テストと制御のエクスペリエンスの手段が同じかどうかをテストします。 通常、実験を実行する前に、2 つのグループのサンプルサイズと相違が同じであるかどうかはわかりません。また、Target れにより、各エクスペリエンスに送信されるトラフィックの割合が等しくなくなるので、各エクスペリエンスの相違が等しいとは想定しません。 したがって、学生の t 検定の代わりにウェルチの t 検定が選択されます。
Welch の t 検定を行うには、まず t 統計量と自由度の計算を開始し、両側 t 検定を実行して p 値を生成します。 最後に、p 値に基づいて信頼性を計算します。
t 統計量は、ν と ν0 という 2 つの独立した確率変数の平均値を、差の標準誤差で割った値と定義されます。
ここで、μv 及び μv0 は、それぞれ ν 及び ν0 の式であり、μv 及び μv0 の差の標準誤差は次の式で表される。
ここで、σ2v および σ2v0 は、それぞれ 2 つの経験 ν および ν0 の差異であり、Nv および Nv ** 00 は、それぞれ試料サイズである。
Welch の t 検定では、自由度は次のように計算されます。
また、ν と ν0 の自由度は次のように定義されます。
次に、t 分布の末尾の領域から p 値を計算できます。
最後に、Target で報告される信頼性は、次のように定義されます。
オフラインでの計算の実行
ダウンロードした CSV レポート には生データのみが含まれ、A/B テストで使用される訪問者あたりの売上高、上昇率、信頼性などの計算指標は含まれません。
これらの統計量を計算するには、Target 完全信頼性計算ツールExcel ファイルをダウンロードして、アクティビティの値を入力します。