A/Bn テストでの統計計算

最終更新日： 2025年10月14日

トピック：
Reports

この記事では、Adobe Target の手動 A/Bn テストで使用される統計計算を詳しく説明します。定義は、Conversion Rate、Confidence Interval of Conversion Rate、Lift、Confidence Interval for Lift および Confidence に対して提供されます。

NOTE

この記事の情報は、以前このサイトでダウンロード可能だった Adobe Target A/B テストの計算 の PDF ファイルに代わるものです。

A/B テストアクティビティの Conversion Rate、Average Lift and Confidence Interval、Confidence を示すターゲットレポート。

平均性能

次の節では、前の図で使用した計算について説明します。

訪問者あたりのコンバージョン率と売上高（RPV）キャンペーン

次の図に、Conversion Rate レポートの Confidence Interval of Conversion Rate、Conversions、および Target 数を示します。例えば、最初の行は、エクスペリエンス A の場合、Conversion Rate は 25.81% で、Confidence Interval は±7.7% で、32 のコンバージョンが記録されたことを示しています。 124 人の訪問者がエクスペリエンスを閲覧した場合、これは 32/124 = 25.81% に等しくなります。

{width="25%"}

実験の各体験 ν のコンバージョン率または平均 μν は、指標の合計と、その指標に割り当てられた単位数 N_ν との比率として定義されます。

{width="125px"}

ここで、

Y_iν は、特定のエクスペリエンス ν に割り当てられた各単位 i の指標の値です。
単位 i の合計は、カウント方法の選択によって異なります。
- カウント方法として Visitors を使用する場合、各ユニットは、アクティビティの存続期間中、アクティビティのユニーク参加者として定義されるユニーク訪問者です。
- カウント方法として Visits を使用する場合、各ユニットは、Target セッション中のエクスペリエンスの一意の参加者として定義される一意の訪問（一意の sessionId）です。 sessionId が変更された場合、または訪問者がコンバージョンステップに到達した場合は、新しい訪問がカウントされます。
- カウント方法として Activity Impressions を使用する場合、各単位は、訪問者がアクティビティの任意のページを読み込むたびに定義される一意のインプレッションです。

Confidence Interval of Mean／Conversion Rate

コンバージョン率の信頼区間は、基になるデータと一致する可能性のあるコンバージョン率の範囲として、直感的に定義されます。

実験を実行する場合、特定のエクスペリエンスのコンバージョン率は、「true」のコンバージョン率の推定です。この推定値の不確実性を定量化するには、信頼区間 Target 使用します。 Target は常に 95% の信頼区間をレポートします。つまり、計算された信頼区間の 95% には、最終的にエクスペリエンスの真のコンバージョン率が含まれます。

現在リードしているエクスペリエンス、もしくは勝者のエクスペリエンスの横には「信頼性」の数値もレポートされます。この数値は、リードするエクスペリエンスの Confidence が 60% に達するまでの間のみレポートされます。アクティビティに 2 つのエクスペリエンスが存在する場合、この数は、他のエクスペリエンスよりも当該のエクスペリエンスのパフォーマンスが優れている信頼水準を表します。アクティビティに 3 つ以上のエクスペリエンスが存在する場合、この数は、定義された「コントロール」エクスペリエンスよりも当該のエクスペリエンスのパフォーマンスが優れている信頼水準を表します。「コントロール」エクスペリエンスが勝者である場合、「信頼性」の数値はレポートされません。

コンバージョン率 μ_ν の 95% の信頼区間は、値の範囲として定義されます。

{width="30%"}

ここで、平均の標準誤差は次のように定義されます

{width="75px"}

サンプルの標準偏差をバイアスなしで推定する場合：

{width="200px"}

キャンペーンがコンバージョン率キャンペーンの場合（つまり、コンバージョン指標がバイナリの場合）、標準エラーは次のように減少します。

{width="150px"}

上昇率

次の図は、Lift レポートの Confidence Interval of Lift と Target を示しています。数値はリフト範囲の平均を表し、矢印はリフトが正か負かを反映します。信頼性が 95% を超えるまで、矢印はグレーで表示されます。信頼性がしきい値を通過した後、矢印は正または負の上昇率に基づいて緑または赤になります。

{width="35%"}

エクスペリエンス ν とコントロールエクスペリエンス ν₀ の間の上昇率は、コンバージョン率の相対的な「デルタ」で、次のように定義されます

{width="15%"}

個々のコンバージョン率が上記で定義されている場合。より簡単に言えば、

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

コントロールエクスペリエンス ν₀ のコンバージョン率が 0 の場合、上昇率はありません。

Confidence Interval of Lift

Average Lift and Confidence Interval 列のボックス図グラフは、平均値と 95% の Confidence Interval of Lift を表します。特定の非制御エクスペリエンスの信頼区間と制御エクスペリエンスの信頼区間に重複がある場合、ボックスプロットはグレーになります。指定されたエクスペリエンスの信頼区間の範囲が、コントロールエクスペリエンスの信頼区間の上または下の場合、ボックスプロットは緑または赤になります。

エクスペリエンス ν とコントロールエクスペリエンス ν₀ の間の上昇率の標準誤差は、次のように定義されます。

指標 – 平均 {width="35%"}

すると、上昇率の 95% 信頼区間は次のようになります。

{width="40%"}

この計算では「Delta」メソッドを使用します。詳しくは、このドキュメントで説明します

Confidence

最後の列には、Target レポートの信頼性が表示されます。エクスペリエンスの信頼性とは、null 仮説が true の場合に観測された結果と同じ極端な結果が得られる確率（パーセンテージで示されます）です。 p 値に関しては、表示される信頼性は 1 - p 値 です。直感的には、信頼性が高いほど、コントロールエクスペリエンスとコントロール以外のエクスペリエンスのコンバージョン率が等しくなる可能性が低くなります。

ま Target、テストエクスペリエンスと制御エクスペリエンスの間で両側 Welch の t 検定 が行われ、テストと制御のエクスペリエンスの手段が同じかどうかをテストします。通常、実験を実行する前に、2 つのグループのサンプルサイズと相違が同じであるかどうかはわかりません。また、Target れにより、各エクスペリエンスに送信されるトラフィックの割合が等しくなくなるので、各エクスペリエンスの相違が等しいとは想定しません。したがって、学生の t 検定の代わりにウェルチの t 検定が選択されます。

Welch の t 検定を行うには、まず t 統計量と自由度の計算を開始し、両側 t 検定を実行して p 値を生成します。最後に、p 値に基づいて信頼性を計算します。

t 統計量は、ν と ν₀ という 2 つの独立した確率変数の平均値を、差の標準誤差で割った値と定義されます。

{width="100px"}