了解統計計算 experiment-calculations

本文說明在Adobe Journey Optimizer中執行實驗時所使用的統計計算。

實驗使用 進階統計方法 以計算 信賴序列信賴度,可讓您視需要持續執行實驗並持續監控結果。

本文說明Experimentation的運作方式,並直覺地介紹Adobe的 任何時間有效的信賴序列.

對於專家使用者,技術詳細資訊和參考資料詳見 此頁面.

統計測試和控制錯誤 statistical-testing

當您執行實驗時,會嘗試判斷兩個母體之間是否有差異,以及差異可能是偶然造成的。

通常有兩種假設:

  • Null假設 表示對處理沒有影響。
  • 替代假設 這表示處理方式會有一定效果。

在統計顯著性方面,目標是嘗試評估證據的強度以拒絕Null假設。 需要注意的一點是,統計顯著性是用來判斷治療差異的可能性,而不是成功的可能性。 這就是結合使用統計顯著性的原因 提升度.

有效的實驗需要考慮可能導致不正確推斷的不同錯誤型別。

上表說明了不同的錯誤型別:

  • 誤判(Type-I錯誤):是對null假設的錯誤拒絕,實際上為true。 就線上實驗而言,這表示我們錯誤地斷定每個處理的結果量度不同,儘管相同。

    在執行實驗之前,我們通常會挑選臨界值 \alpha. 執行實驗後, p-value 已計算,我們拒絕 null if p < \alpha選擇一個 /alpha 是以得到錯誤答案的後果為基礎,例如,在臨床試驗中,某人的生命可能會受到影響,您可能決定要 \alpha = 0.005. 線上實驗中常用的臨界值為 \alpha = 0.05,這表示長遠來看,我們預計每100個實驗中有5個是誤報。

  • 誤判負值(型別II錯誤):表示我們無法拒絕null假設,儘管它為false。 對於實驗,這表示我們不拒絕Null假設,但事實上它不同。 為了控制這類錯誤,我們的實驗中通常需要有足夠的使用者來保證一定的Power,定義為 1 - \beta(亦即1減去II型錯誤的機率)。

大多數的統計推斷技術會要求您根據想要判斷的效果大小以及錯誤容許度,提前修正樣本大小(\alpha\beta)之前送達。 不過,Adobe Journey Optimizer的方法設計可讓您持續檢視結果,無論任何樣本大小。

Adobe的統計方法:任何時間有效的信賴序列

A 信賴序列信賴區間,例如,如果您重複實驗一百次,然後計算每個進入實驗新使用者的平均量度估計值及其相關的95%信賴序列。 95%信賴序列將會包含您執行100個實驗中的95個中的量度真實值。 每個實驗只能計算一次95%信賴區間,以提供相同的95%覆蓋率保證;而不是針對每個新使用者。 因此,信賴序列可讓您持續監視實驗,而不會增加「誤判為真」的錯誤率。

單一實驗的信賴序列與信賴區間之間的差異,如下面的動畫所示:

信賴序列 將實驗的焦點轉移到估計而不是假設測試,也就是說,專注於精確估計不同治療之間的方法差異,而不是是否根據統計顯著性臨界值拒絕Null假設。

然而,以類似的方式處理以下專案之間的關係: p-values,或 信賴度、和 信賴區間 ​中,兩者之間也存在一種關係 信賴序列 且隨時有效 p-values,或任何隨時有效的信賴度。 考慮到信賴度等量的熟悉度,Adobe會同時提供 信賴序列 以及對其報表的任何有效信賴度。

的理論基礎 信賴序列 來自隨機變數(稱為烈酒)序列的研究。 以下提供專家讀者的部分主要結果,但從業者的建議很清楚:

NOTE
信賴序列可以解譯為信賴區間的安全循序類似專案。 有了信賴區間,您只能在達到預先決定的樣本大小之後解譯實驗。 但是,有了信賴序列,您可以隨時檢視和解讀實驗中的資料,並安全地停止或繼續實驗。 隨時有效的對應信賴度,或 p-value也可在任何時候安全解譯。

請務必注意,由於信賴序列是「隨時有效」,因此在相同樣本大小下使用固定水平線方法時,信賴序列會比固定水平線方法更保守。 信賴序列的界限通常比信賴區間計算更寬,而任何時間的有效信賴將小於固定水平線信賴計算。 這種保守主義的好處是,您可以隨時安全地解讀結果。

宣告實驗為有結論

每次檢視實驗報告時,Adobe都會分析到目前為止在實驗中累積的資料,並在至少一個處理的隨時有效信賴度超過95%臨界值時宣告實驗為具有「結論性」。

此時,表現最佳的處理(根據轉換率或設定檔標準化量度值)將會在報表畫面頂端反白顯示,並在表格式報表中以星號表示。 此決定只會考慮可信度大於95%的處理以及基準。

當有兩個以上的處理方式時,Bonferroni更正連結可用來更正多個比較問題,並控制以系列為基礎的錯誤率。 此情境中,也可能有多個信賴度大於95%且其信賴區間重疊的處理方式。 在這種情況下,Adobe Journey Optimizer會將轉換率(或設定檔標準化量度值)最高的宣告為績效最佳者。

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76