A/Bn テストでの統計計算

この記事では、Adobe Target の手動 A/Bn テストで使用される統計計算を詳しく説明します。 定義は、Conversion Rate、Confidence Interval of Conversion Rate、Lift、Confidence Interval for Lift および Confidence に対して提供されます。

NOTE
この記事の情報は、以前このサイトでダウンロード可能だった Adobe Target A/B テストの計算 の PDF ファイルに代わるものです。

A/B テストアクティビティの Conversion Rate、Average Lift and Confidence Interval、Confidence を示すターゲットレポート。

平均性能

次の節では、前の図で使用した計算について説明します。

訪問者あたりのコンバージョン率と売上高(RPV)キャンペーン

次の図に、Target レポートの Conversion Rate、Confidence Interval of Conversion Rate、および Conversions 数を示します。 例えば、最初の行は、エクスペリエンス A の場合、Conversion Rate は 25.81% で、Confidence Interval は±7.7% で、32 のコンバージョンが記録されたことを示しています。 124 人の訪問者がエクスペリエンスを閲覧した場合、これは 32/124 = 25.81% に等しくなります。

{width="25%"}

実験の各体験 ν​ のコンバージョン率または 平均μν は、指標の合計と、その指標に割り当てられた単位数 Nν との比率として定義されます。

{width="125px"}

ここで、

  • Y は、特定のエクスペリエンス ν に割り当てられた各単位 i の指標の値です。

  • 単位 i の合計は、カウント方法の選択によって異なります。

    • カウント方法として Visitors を使用する場合、各ユニットは、アクティビティの存続期間中、アクティビティのユニーク参加者として定義されるユニーク訪問者です。
    • カウント方法として Visits を使用する場合、各ユニットは、Target セッション中のエクスペリエンスの一意の参加者として定義される一意の訪問(一意の sessionId)です。 sessionId が変更された場合、または訪問者がコンバージョンステップに到達した場合は、新しい訪問がカウントされます。
    • カウント方法として Activity Impressions を使用する場合、各単位は、訪問者がアクティビティの任意のページを読み込むたびに定義される一意のインプレッションです。

Confidence Interval of Mean/Conversion Rate

コンバージョン率の信頼区間は、基になるデータと一致する可能性のあるコンバージョン率の範囲として、直感的に定義されます。

実験を実行する場合、特定のエクスペリエンスのコンバージョン率は、「true」のコンバージョン率の 推定 です。 この推定値の不確実性を定量化するには、信頼区間 Target 使用します。 Target は常に 95% の信頼区間をレポートします。つまり、計算された信頼区間の 95% には、最終的にエクスペリエンスの真のコンバージョン率が含まれます。

コンバージョン率 μν の 95% の信頼区間は、値の範囲として定義されます。

{width="30%"}

ここで、平均の標準誤差は次のように定義されます

{width="75px"}

サンプルの標準偏差をバイアスなしで推定する場合:

{width="200px"}

キャンペーンがコンバージョン率キャンペーンの場合(つまり、コンバージョン指標がバイナリの場合)、標準エラーは次のように減少します。

{width="150px"}

上昇率

次の図は、Target レポートの Lift と Confidence Interval of Lift を示しています。 数値はリフト範囲の平均を表し、矢印はリフトが正か負かを反映します。 信頼性が 95% を超えるまで、矢印はグレーで表示されます。 信頼性がしきい値を通過した後、矢印は正または負の上昇率に基づいて緑または赤になります。

{width="35%"}

エクスペリエンス ν とコントロールエクスペリエンス ν0 の間の上昇率は、コンバージョン率の相対的な「デルタ」で、次のように定義されます

{width="15%"}

個々のコンバージョン率が上記で定義されている場合。 より簡単に言えば、

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

コントロールエクスペリエンス ν0 のコンバージョン率が 0 の場合、上昇率はありません。

Confidence Interval of Lift

Average Lift and Confidence Interval 列のボックス図グラフは、平均値と 95% の Confidence Interval of Lift を表します。 特定の非制御エクスペリエンスの信頼区間と制御エクスペリエンスの信頼区間に重複がある場合、ボックスプロットはグレーになります。 指定されたエクスペリエンスの信頼区間の範囲が、コントロールエクスペリエンスの信頼区間の上または下の場合、ボックスプロットは緑または赤になります。

エクスペリエンス ν とコントロールエクスペリエンス ν0 の間の上昇率の標準誤差は、次のように定義されます。

指標 – 平均 {width="35%"}

すると、上昇率の 95% 信頼区間は次のようになります。

{width="40%"}

この計算では「Delta」メソッドを使用します。詳しくは、このドキュメントで 説明します

Confidence

最後の列には、Target レポートの信頼性が表示されます。 エクスペリエンスの信頼性とは、null 仮説が true の場合に観測された結果と同じ極端な結果が得られる確率(パーセンテージで示されます)です。 p 値に関しては、表示される信頼性は 1 - p 値 です。 直感的には、信頼性が高いほど、コントロールエクスペリエンスとコントロール以外のエクスペリエンスのコンバージョン率が等しくなる可能性が低くなります。

ま Target、テストエクスペリエンスと制御エクスペリエンスの間で両側 Welch の t 検定 が行われ、テストと制御のエクスペリエンスの手段が同じかどうかをテストします。 通常、実験を実行する前に、2 つのグループのサンプルサイズと相違が同じであるかどうかはわかりません。また、Target れにより、各エクスペリエンスに送信されるトラフィックの割合が等しくなくなるので、各エクスペリエンスの相違が等しいとは想定しません。 したがって、学生の t 検定の代わりにウェルチの t 検定が選択されます。

Welch の t 検定を行うには、まず t 統計量と自由度の計算を開始し、両側 t 検定を実行して p 値を生成します。 最後に、p 値に基づいて信頼性を計算します。

t 統計量は、νν0 という 2 つの独立した確率変数の平均値を、差の標準誤差で割った値と定義されます。

{width="100px"}

ここで、μv 及び μv0 は、それぞれ ν 及び ν0 の式であり、μv 及び μv0 の差の標準誤差は次の式で表される。

{width="150px"}

ここで、σ2v および σ2v0 は、それぞれ 2 つの経験 ν および ν0 の差異であり、Nv および Nv ** 00 は、それぞれ試料サイズである。

Welch の t 検定では、自由度は次のように計算されます。

{width="180px"}

また、νν0 の自由度は次のように定義されます。

{width="100px"}

{width="100px"}

次に、t 分布の末尾の領域から p 値を計算できます。

{width="20%"}

最後に、Target で報告される信頼性は、次のように定義されます。

{width="20%"}

オフラインでの計算の実行

ダウンロードした CSV レポート には生データのみが含まれ、A/B テストで使用される訪問者あたりの売上高、上昇率、信頼性などの計算指標は含まれません。

これらの統計量を計算するには、Target 完全信頼性計算ツールExcel ファイルをダウンロードして、アクティビティの値を入力します。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654