了解統計計算 experiment-calculations
本文說明在Adobe Journey Optimizer中執行實驗時所使用的統計計算。
實驗使用進階統計方法計算 信賴序列 和 信賴,讓您視需要執行實驗,並持續監視結果。
本文說明Experimentation的運作方式,並直覺地介紹Adobe的 任何時間有效的信賴序列。
對於專家使用者,此頁面中會詳細說明技術詳細資訊和參考資料。
統計測試和控制錯誤 statistical-testing
當您執行實驗時,會嘗試判斷兩個母體之間是否有差異,以及差異可能是偶然造成的。
通常有兩種假設:
- Null假設 表示對處理沒有影響。
- 替代假設 表示對處理方式有影響。
在統計顯著性方面,目標是嘗試評估證據的強度以拒絕Null假設。 需要注意的一點是,統計顯著性是用來判斷治療差異的可能性,而不是成功的可能性。 這就是為什麼統計顯著性會與 提升度 搭配使用的原因。
有效的實驗需要考慮可能導致不正確推斷的不同錯誤型別。
上表說明了不同的錯誤型別:
-
誤判(Type-I錯誤):是對Null假設的錯誤拒絕,但實際上為True。 就線上實驗而言,這表示我們錯誤地斷定每個處理的結果量度不同,儘管相同。
在執行實驗之前,我們通常會挑選臨界值\alpha
。 實驗執行之後,會計算p-value
,而我們拒絕null if p < \alpha
。選擇/alpha
會根據獲得錯誤答案的後果,例如,在臨床試驗中,某人的生命可能會受到影響,您可能決定擁有\alpha = 0.005
。 線上實驗中最常使用的臨界值為\alpha = 0.05
,這表示長遠來看,我們預計每100個實驗中有5個是誤報。 -
False Negatives (Type-II錯誤):表示我們無法拒絕Null假設,儘管它是False。 對於實驗,這表示我們不拒絕Null假設,但事實上它不同。 若要控制這類錯誤,我們通常需要在實驗中有足夠的使用者來保證特定的Power (定義為
1 - \beta
,亦即1減去II型錯誤的可能性)。
大多數的統計推斷技術會要求您根據想要判斷的效果大小,以及預先修正您的錯誤容許度(\alpha
和\beta
),提前修正樣本大小。 不過,Adobe Journey Optimizer的方法設計可讓您持續檢視結果,無論任何樣本大小。
Adobe的統計方法:任何時間有效的信賴序列
信賴序列 是 信賴區間 的循序類比,例如,如果您重複實驗一百次,然後計算每個進入實驗的新使用者的平均量度估計值及其相關的95%信賴序列。 95%信賴序列將會包含您執行100個實驗中的95個中的量度真實值。 每個實驗只能計算一次95%信賴區間,以提供相同的95%覆蓋率保證;而不是針對每個新使用者。 因此,信賴序列可讓您持續監視實驗,而不會增加「誤判為真」的錯誤率。
單一實驗的信賴序列與信賴區間之間的差異,如下面的動畫所示:
信賴序列 將實驗焦點轉移到預估而不是假設測試,也就是專注於精確估計不同處理之間的方式差異,而不是是否根據統計顯著性臨界值拒絕Null假設。
但是,以類似於p-values
(或 信賴度)與 信賴區間 之間的關係的方式,信賴序列 與任何時間有效的p-values
或任何時間有效的信賴度之間也有關係。 考慮到信賴度等量的熟悉度,Adobe在其報表中同時提供 信賴序列 和任何時間有效的信賴度。
信賴序列 的理論基礎來自隨機變數(稱為烈酒)序列的研究。 以下提供專家讀者的部分主要結果,但從業者的建議很清楚:
p-value
)也可隨時安全解譯。請務必注意,由於信賴序列是「隨時有效」,因此在相同樣本大小下使用固定水平線方法時,信賴序列會比固定水平線方法更保守。 信賴序列的界限通常比信賴區間計算更寬,而任何時間的有效信賴將小於固定水平線信賴計算。 這種保守主義的好處是,您可以隨時安全地解讀結果。
宣告實驗為有結論
每次檢視實驗報告時,Adobe都會分析到目前為止在實驗中累積的資料,並在至少一個處理的隨時有效信賴度超過95%臨界值時宣告實驗為具有「結論性」。
此時,表現最佳的處理(根據轉換率或設定檔標準化量度值)將會在報表畫面頂端反白顯示,並在表格式報表中以星號表示。 此決定只會考慮可信度大於95%的處理以及基準。
當有兩個以上的處理方式時,Bonferroni更正連結可用來更正多個比較問題,並控制以系列為基礎的錯誤率。 此情境中,也可能有多個信賴度大於95%且其信賴區間重疊的處理方式。 在這種情況下,Adobe Journey Optimizer會將轉換率(或設定檔標準化量度值)最高的宣告為績效最佳者。