了解統計計算 experiment-calculations

本文說明在Adobe Journey Optimizer中執行實驗時所使用的統計計算。

實驗使用進階統計方法計算​ 信賴序列 ​和​ 信賴,讓您視需要執行實驗,並持續監視結果。

本文說明Experimentation的運作方式,並直覺地介紹Adobe的​ 任何時間有效的信賴序列

對於專家使用者,此頁面中會詳細說明技術詳細資訊和參考資料。

統計測試和控制錯誤 statistical-testing

當您執行實驗時,會嘗試判斷兩個母體之間是否有差異,以及差異可能是偶然造成的。

通常有兩種假設:

  • Null假設 ​表示對處理沒有影響。
  • 替代假設 ​表示對處理方式有影響。

在統計顯著性方面,目標是嘗試評估證據的強度以拒絕Null假設。 需要注意的一點是,統計顯著性是用來判斷治療差異的可能性,而不是成功的可能性。 這就是為什麼統計顯著性會與​ 提升度 ​搭配使用的原因。

有效的實驗需要考慮可能導致不正確推斷的不同錯誤型別。

上表說明了不同的錯誤型別:

  • 誤判(Type-I錯誤):是對Null假設的錯誤拒絕,但實際上為True。 就線上實驗而言,這表示我們錯誤地斷定每個處理的結果量度不同,儘管相同。

    在執行實驗之前,我們通常會挑選臨界值\alpha。 實驗執行之後,會計算p-value,而我們拒絕null if p < \alpha。選擇/alpha會根據獲得錯誤答案的後果,例如,在臨床試驗中,某人的生命可能會受到影響,您可能決定擁有\alpha = 0.005。 線上實驗中最常使用的臨界值為\alpha = 0.05,這表示長遠來看,我們預計每100個實驗中有5個是誤報。

  • False Negatives (Type-II錯誤):表示我們無法拒絕Null假設,儘管它是False。 對於實驗,這表示我們不拒絕Null假設,但事實上它不同。 若要控制這類錯誤,我們通常需要在實驗中有足夠的使用者來保證特定的Power (定義為1 - \beta,亦即1減去II型錯誤的可能性)。

大多數的統計推斷技術會要求您根據想要判斷的效果大小,以及預先修正您的錯誤容許度(\alpha\beta),提前修正樣本大小。 不過,Adobe Journey Optimizer的方法設計可讓您持續檢視結果,無論任何樣本大小。

Adobe的統計方法:任何時間有效的信賴序列

信賴序列 ​是​ 信賴區間 ​的循序類比,例如,如果您重複實驗一百次,然後計算每個進入實驗的新使用者的平均量度估計值及其相關的95%信賴序列。 95%信賴序列將會包含您執行100個實驗中的95個中的量度真實值。 每個實驗只能計算一次95%信賴區間,以提供相同的95%覆蓋率保證;而不是針對每個新使用者。 因此,信賴序列可讓您持續監視實驗,而不會增加「誤判為真」的錯誤率。

單一實驗的信賴序列與信賴區間之間的差異,如下面的動畫所示:

信賴序列 ​將實驗焦點轉移到預估而不是假設測試,也就是專注於精確估計不同處理之間的方式差異,而不是是否根據統計顯著性臨界值拒絕Null假設。

但是,以類似於p-values (或​ 信賴度)與​ 信賴區間 ​之間的關係的方式,信賴序列 ​與任何時間有效的p-values或任何時間有效的信賴度之間也有關係。 考慮到信賴度等量的熟悉度,Adobe在其報表中同時提供​ 信賴序列 ​和任何時間有效的信賴度。

信賴序列 ​的理論基礎來自隨機變數(稱為烈酒)序列的研究。 以下提供專家讀者的部分主要結果,但從業者的建議很清楚:

NOTE
信賴序列可以解譯為信賴區間的安全循序類似專案。 有了信賴區間,您只能在達到預先決定的樣本大小之後解譯實驗。 但是,有了信賴序列,您可以隨時檢視和解讀實驗中的資料,並安全地停止或繼續實驗。 相對應的Any Time Valid Confidence (或p-value)也可隨時安全解譯。

請務必注意,由於信賴序列是「隨時有效」,因此在相同樣本大小下使用固定水平線方法時,信賴序列會比固定水平線方法更保守。 信賴序列的界限通常比信賴區間計算更寬,而任何時間的有效信賴將小於固定水平線信賴計算。 這種保守主義的好處是,您可以隨時安全地解讀結果。

宣告實驗為有結論

每次檢視實驗報告時,Adobe都會分析到目前為止在實驗中累積的資料,並在至少一個處理的隨時有效信賴度超過95%臨界值時宣告實驗為具有「結論性」。

此時,表現最佳的處理(根據轉換率或設定檔標準化量度值)將會在報表畫面頂端反白顯示,並在表格式報表中以星號表示。 此決定只會考慮可信度大於95%的處理以及基準。

當有兩個以上的處理方式時,Bonferroni更正連結可用來更正多個比較問題,並控制以系列為基礎的錯誤率。 此情境中,也可能有多個信賴度大於95%且其信賴區間重疊的處理方式。 在這種情況下,Adobe Journey Optimizer會將轉換率(或設定檔標準化量度值)最高的宣告為績效最佳者。

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76