A/Bn測試中的統計計算

本文記錄了Adobe Target中手動A/Bn測試使用的詳細統計計算。 已提供Conversion Rate、Confidence Interval of Conversion Rate、Lift、Confidence Interval for Lift和Confidence的定義。

NOTE
本文資訊取代了​ Adobe Target Calculations for A/B Testing pdf檔案(先前可在此網站下載)。

顯示A/B測試活動Conversion Rate、Average Lift and Confidence Interval和Confidence的目標報告。

平均績效

下節將說明上圖中所使用的計算。

轉換率和每位訪客帶來的收入(RPV)行銷活動

下圖顯示Target報表中的Conversion Rate、Confidence Interval of Conversion Rate和Conversions數目。 例如,第一行顯示對於體驗A: Conversion Rate為25.81%,Confidence Interval為±7.7%,且已記錄32次轉換。 假設有124位訪客看過該體驗,則等於32/124 = 25.81%。

{width="25%"}

實驗中的每個體驗​ ν ​的轉換率或​ 平均值μν,定義為量度總和相對於指派給該量度的單位數的比率,Nν

{width="125px"}

此處,

  • Y ​是指派給指定體驗​ ν ​之每個單位​ i ​的量度值。

  • 單位​ i ​的總和取決於計數方法的選擇。

    • 如果使用​ Visitors ​做為計數方法,則每個單位都是定義為活動終生中唯一參與者的不重複訪客。
    • 如果使用​ Visits ​做為計數方法,則每個單位都是定義為在Target工作階段期間體驗中唯一參與者的唯一造訪(具有唯一的sessionId)。 當sessionId變更時,或訪客達到轉換步驟時,即會計為新造訪。
    • 如果使用​ Activity Impressions ​做為計數方法,則每個單位都是定義為每次訪客載入活動的任何頁面時的唯一曝光數。

Confidence Interval of Mean/Conversion Rate

轉換率的信賴區間在直覺上定義為與基礎資料一致的可能轉換率範圍。

執行實驗時,特定體驗的轉換率是"true"轉換率的​ 預估值。 若要量化此估計中的不確定性,Target會使用信賴區間。 Target一律會報告95%的信賴區間,這表示到最後,95%的信賴區間都會包含體驗的真正轉換率。

轉換率​ μν ​的95%信賴區間定義為值的範圍:

{width="30%"}

其中平均值的標準誤差定義為

{width="75px"}

其中使用樣本標準差的無偏估計值:

{width="200px"}

當行銷活動為轉換率行銷活動時(即轉換量度為二進位),標準錯誤會減少為:

{width="150px"}

提升度

下圖顯示Target報告中的Lift和Confidence Interval of Lift。 數字代表提升度界限的平均值,而箭頭則反映提升度是正數或負數。 箭頭會以灰色顯示,直到信賴度超過95%為止。 信賴度超過臨界值後,箭頭會根據提升度為正值或負值,變成綠色或紅色。

{width="35%"}

體驗​ ν ​與控制體驗​ ν0 ​之間的提升度是轉換率的相對「差異」,定義為

{width="15%"}

其中個別轉換率定義如上。 更簡單地說,

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

如果控制體驗​ ν0 ​的轉換率為0,則沒有提升度。

Confidence Interval of Lift

Average Lift and Confidence Interval欄中的箱形圖代表平均值和95% Confidence Interval of Lift。 指定非控制體驗的信賴區間與控制體驗的信賴區間發生任何重疊時,箱形圖就會呈現灰色。 當指定體驗的信賴區間範圍高於或低於控制體驗的信賴區間時,箱形圖就會呈現綠色或紅色。

體驗​ ν ​與控制體驗​ ν0 ​之間提升度的標準錯誤定義為:

量度平均值 {width="35%"}

提升度的95%信賴區間是:

{width="40%"}

此計算使用「差異」方法,本檔案將詳細說明🔗

Confidence

最後一欄顯示Target報表中的可信度。 體驗的信賴度是一種取得極端結果的機率(以百分比表示),當作觀察到的結果,假設null假設為true。 就p值而言,顯示的信賴度為​ 1 - p值。 直覺上,較高的信賴度表示控制體驗和非控制體驗擁有相同轉換率的可能性較低。

在Target中,會在測試體驗與控制體驗之間執行雙尾​ Welch的t檢定,以測試測試與控制體驗的方法是否相同。 因為在執行實驗之前,我們通常不知道兩個群組的樣本大小和差異是否相同,而且Target也允許您傳送到每個體驗的流量百分比不相等,因此我們不假設每個體驗的差異相等。 因此,選擇Welch的t檢驗,而非Student的t檢驗。

若要執行Welch的t檢定,我們先開始計算t統計值和自由度,然後執行雙尾t檢定,以產生p值。 最後,我們會根據p值計算可信度。

t ​統計值定義為任何兩個獨立隨機變數​ ν ​和​ ν0 ​之平均值除以差異的標準誤差:

{width="100px"}

其中​ μv ​和​ μv0 ​分別為​ ν ​和​ ν0 ​的均值,且​ μv ​和​ μv0 ​之間差值的標準誤差由以下給出:

{width="150px"}

其中​ σ2v ​和​ σ2v0 ​分別為兩個體驗​ ν ​和​ ν0 ​的變異,而​ Nv ​和​ Nv0 ​分別為​ ν ​和​ ν0 ​的樣本大小。

對於Welch的t檢定,自由度計算如下:

{width="180px"}

ν ​和​ ν0 ​的自由度定義為:

{width="100px"}

{width="100px"}

然後可以從​ t — 分佈尾部的區域計算p值:

{width="20%"}

最後,Target中報告的信賴度定義為:

{width="20%"}

離線執行計算

下載的 CSV 報表只包含原始資料,不含計算度量,例如每次造訪帶來的收入、提升度或用於 A/B 測試的信賴度。

若要計算這些統計數量,請下載Target 完整可信度電腦 Excel檔案來輸入活動的值。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654