了解實驗報告中的統計計算 experiment-report-calculations

本頁會記錄Adobe Journey Optimizer行銷活動的實驗報告中使用的詳細統計計算。

請注意,本頁僅供技術使用者使用。

轉換率

實驗中的每個處理​ 的轉換率或 ​平均值,μνν定義為量度總和與指派給該量度的設定檔數目之比,Nν

{align="center" width="125"}

這裡,Y是已指派給指定變體iν​ 的每個設定檔 ​的目標量度值。 當目標量度是「唯一」量度時(即是執行特定動作的設定檔數計數),會顯示為轉換率,並格式化為百分比。 當量度是「計數」或「總值」量度(分別例如電子郵件開啟次數、收入)時,該量度的平均估計會顯示為「每個設定檔計數」或「每個設定檔的值」。

如有需要,範例標準差會與運算式搭配使用:

{align="center" width="225"}

提升度 lift

變數​ ν ​與控制變數​ ν0 ​之間的提升度是轉換率的相對「差異」,定義如下,其中個別轉換率的定義如上所示。 這會以百分比顯示。

{align="center" width="125"}

適用於個別處理的隨時有效信賴區間

Journey Experimentation面板會顯示實驗中個別處理方式的「隨時有效」信賴區間(信賴序列)。

個別變體ν的信賴序列是Adobe所使用的統計方法的核心。 您可以在此頁面上找到其定義(轉載自[Waudby-Smith et al.])。

如果您有興趣估計目標引數ψ,例如實驗中的變體轉換率,一系列「固定時間」信賴區間(CI)與時間一致信賴序列(CS)之間的二分法可歸納如下:

{align="center" width="500"}

對於規則信賴區間,目標引數位於值ċn範圍內的機率保證,只在n的單一固定值有效(其中n是樣本數目)。 相反地,對於信賴序列,我們保證在任何時候/所有樣本大小t的值,感興趣引數的「true」值都在界限內。

這隱含幾項對線上測試非常重要的深層含意:

  • CS可在新資料可用時選擇性地更新。
  • 實驗可以持續監控、自適應停止或繼續。
  • type-I錯誤會在所有停止時間(包括資料相依時間)受到控制。

Adobe使用漸近信賴序列,對具有平均預估值μ的個別變體而言,其形式為:

{align="center" width="300"}

其中:

  • N是該變體的單位數。
  • σ是標準差的樣本估計值(定義於上面)。
  • α是所需的型別I錯誤(或覆蓋範圍錯誤機率)層級。 此值一律設為0.05。
  • ρ2是一個常數,可調整CS最緊密的樣本大小。 Adobe已選擇通用值ρ2 = 10-2.8,該值適用於線上實驗中所見的轉換率型別。

信賴度 confidence

Adobe使用的信賴度是「隨時有效」的信賴度,這是透過反轉平均處理效果的信賴度序列所取得。

更精確地說,在兩個樣本​ t ​測試中兩個變體之間的平均值差異中,此測試的:1p — 值與平均值差異的信賴區間之間有1 ​對應。 類比,透過反轉平均處理效果估計器的(隨時有效)信賴序列,可獲得隨時有效的​ p — 值:

{align="center" width="200"}

在此,E ​為預期值。 使用的估計器是反向傾向加權(IPW)估計器。 考慮N = N0 +N1個單位,如果單位已指派給變體i=0,1,則以Ai=0,1標示的每個單位ν的變體指派。 如果使用者被指派有固定機率(傾向) π0, (1-π0),且其結果量度為Yi,則平均處理效果的IPW估計器是:

{align="center" width="400"}

注意​ f ​為影響函式,Waudby-Smith等 顯示此估算程式的信賴序列為:

{align="center" width="500"}

以經驗估計值取代指派概率: π0 = N0/N,變數項可以個別樣本平均估計值μ0,1和標準差估計值σ0,1表示:

{align="center" width="500"}

接下來,回想一下,對於測試統計值z = (μA0p)的常規假設測試,在p — 值與信賴區間之間存在對應關係:

{align="center" width="500"}

其中Φ是標準常數的累積分佈。 對於隨時有效的p值,根據以上定義的平均處理效果的信賴序列,我們可以反轉此關係:

{align="center" width="600"}

最後,隨時有效的信賴度 ​為:

{align="center" width="200"}

宣告實驗為有結論

對於雙臂實驗,Journey Optimizer Experimentation面板會顯示訊息,指出當隨時有效的信賴度超過95% (亦即隨時有效的​ — 值低於5%)時,實驗具有 ​結論性p

當存在兩個以上的變體時,會套用Bonferonni校正,以控制族別錯誤率。 對於具有K個處理和單一基準(控制)處理的實驗,有K-1個獨立的假設測試。 Bonferonni校正表示如果隨時有效的p值(以上所定義)低於臨界值α/(K-1),我們拒絕控制項和給定變體具有相等平均值的Null假設。

績效最佳的手臂

當一個實驗宣告為具有結論性時,會顯示表現最佳的臂。 這是包含控制項的Set中,具有最佳效能(最高平均或轉換率)的臂,以及具有低於Bonferonni臨界值p值的所有臂。

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76