A/Bn テストでの統計計算

この記事では、 Adobe Target. 次の定義が提供されています: コンバージョン率, コンバージョン率の信頼区間, 上昇率, 上昇率の信頼区間、および 信頼性.

NOTE
この記事の情報は、以前このサイトでダウンロード可能だった Adobe Target A/B テストの計算 ​の PDF ファイルに代わるものです。

次を示すターゲットレポート: コンバージョン率, 平均上昇率と信頼区間、および 信頼性 A/B テストアクティビティの

平均性能

次の節では、前の図で使用した計算方法を説明します。

訪問者 (RPV) キャンペーンあたりのコンバージョン率と売上高

次の図にを示します。 コンバージョン率, コンバージョン率の信頼区間、および コンバージョン 内 Target レポート。 例えば、最初の行には、エクスペリエンス A の場合は コンバージョン率 は 25.81%で、 信頼区間 が±7.7%および 32 コンバージョンと記録されました。 124 人の訪問者がエクスペリエンスを閲覧したと仮定すると、これは32/124 = 25.81%と同じです。

コンバージョン率、または mean, μν(各エクスペリエンスに対して) ν 実験では、指標の合計と、その指標に割り当てられた単位数との比率を定義します。 Nν:

ここで、

  • Y は、各単位の指標の値です i(特定のエクスペリエンスに割り当てられている) ν.

  • 単位に対する合計 i カウント手法の選択に応じて異なります。

    • 次の場合 訪問者 はカウント手法として使用され、各ユニットは、アクティビティの全期間にわたるアクティビティの個別参加者として定義される個別訪問者です。
    • 次の場合 訪問回数 はカウント手法として使用され、各ユニットは、 Target セッション ( 一意の sessionId) をクリックします。 次の場合に sessionId を変更した場合、または訪問者がコンバージョンステップに到達した場合、新しい訪問がカウントされます。
    • 次の場合 アクティビティのインプレッション はカウント手法として使用され、各ユニットは、訪問者がアクティビティのページを読み込むたびに定義される一意のインプレッションです。

平均の信頼区間/コンバージョン率

コンバージョン率の信頼区間は、基礎となるデータと一致する可能なコンバージョン率の範囲として直感的に定義されます。

実験を実行する場合、特定のエクスペリエンスのコンバージョン率は 見積 」の値が含まれます。 この見積もりで不確実性を定量化するには、 Target は信頼区間を使用します。 Target は常に 95%の信頼区間をレポートします。つまり、最終的に計算される信頼区間の 95%に、エクスペリエンスの真のコンバージョン率が含まれます。

コンバージョン率の 95%信頼区間 μν は値の範囲として定義されます。

平均値の標準誤差は

サンプルの標準偏差に関する公平な推定値が使用される場合:

キャンペーンがコンバージョン率キャンペーン(コンバージョン指標がバイナリ)の場合、標準エラーは次のようになります。

上昇率

次の図にを示します。 上昇率 および 上昇率の信頼区間 内 Target レポート。 数値は、上昇率範囲の平均を表し、上昇率が正または負の場合に矢印が反映されます。 信頼性が 95%を超えるまで、矢印は灰色で表示されます。 信頼性がしきい値を超えると、矢印は、正または負の上昇率に基づいて緑または赤になります。

エクスペリエンス間の上昇率 ν、およびコントロールエクスペリエンス ν0 は、コンバージョン率の相対的な「デルタ」で、

個々のコンバージョン率が上で定義されている場合。 もっと簡単に言えば

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

コントロールエクスペリエンスのコンバージョン率 ν0 が 0 の場合、上昇率はありません。

Confidence Interval of Lift

の箱ひげグラフ 平均上昇率と信頼区間 列は平均値 95%を表します 上昇率の信頼区間. 特定の非コントロールエクスペリエンスの信頼区間とコントロールエクスペリエンスの信頼区間に重複がある場合、箱ひげは灰色で表示されます。 特定のエクスペリエンスの信頼区間の範囲がコントロールエクスペリエンスの信頼区間の上または下にある場合、箱ひげは緑または赤で表示されます。

エクスペリエンス間の上昇率の標準誤差 ν、およびコントロールエクスペリエンス ν0 は次のように定義されます。

metric-mean

上昇率の 95%信頼区間は次のようになります。

この計算では「差分」方式を使用し、次の手順で説明します。 このドキュメントの詳細

信頼性

最後の列には、 Target レポート。 エクスペリエンスの信頼性とは、null の仮説が真の場合に、観測された結果と同じ極端な結果が得られる確率(パーセントで示されます)です。 p 値の観点から、表示される信頼性は次のようになります。 1 - p 値. 直感的に、信頼性が高いと、コントロールエクスペリエンスと非コントロールエクスペリエンスのコンバージョン率が等しくなる可能性が低くなります。

In Target,両側 ウェルチ t 検定 は、テストエクスペリエンスとコントロールエクスペリエンスの間で実行され、テストエクスペリエンスとコントロールエクスペリエンスの手段が同じかどうかをテストします。 2 つのグループのサンプルサイズと相違が同じかどうかは、実験を実行する前に通常はわからないので、 Target また、各エクスペリエンスに同等のトラフィックの割合を送信することもできます。各エクスペリエンスの分散が等しいとはみなされません。 したがって、ウェルチの t 検定は、学生の t 検定の代わりに選択されます。

ウェルチの t 検定を行うには、まず t 統計と自由度の計算を開始し、次に t 検定を実行して p 値を生成します。 最後に、p 値に基づいて信頼性を計算します。

The t-statistic は、2 つの独立したランダム変数の手段の違いと定義されます。 ν および ν0 ​を、差の標準誤差で割った値になります。

ここで、 μv および μv0 ~の手段である ν および ν0 それぞれと、 μv および μv0 は次の方法で指定します。

ここで、 σ2v および σ2v0 は、2 つのエクスペリエンスの相違です ν および ν0 それぞれおよび Nv および Nv0 はサンプルサイズです。 ν および ν0 それぞれ。

ウェルチの t 検定では、自由度は次のように計算されます。

自由度 ν および ν0 は次のように定義されます。

次に、p 値を t-distribution:

最後に、 Target は次のように定義されます。

オフラインでの計算の実行

ダウンロードした CSV レポート には生データのみが含まれ、A/B テストで使用される訪問者あたりの売上高、上昇率、信頼性などの計算指標は含まれません。

これらの統計量を計算するには、 Target Complete Confidence Calculator アクティビティの値を入力する Excel ファイル。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654