統計顯著性
測試的顯著水準會決定測試報告兩個不同選件之間轉換率重大差異的可能性,而事實上並沒有實際差異。 這種情況稱為誤判或Type I錯誤。 顯著水準是使用者指定的臨界值,是誤判容許度與必須包含在測試中的訪客數量之間的折衷。
在 A/B 測試中,最初會假設兩個選件有相同的轉換率。然後,根據此假設來計算觀察結果的機率。如果此機率(p值)小於某些預先定義的臨界值(顯著水準),Target會得出初始假設(兩個選件具有相同轉換率)不正確。 因此,A和B的轉換率在指定的顯著水準上有統計上的差異。
A/B 測試中常用的顯著水準是 5%,這對應於信賴水準 95% (信賴水準 = 100% - 顯著水準)。信賴水準 95% 表示每次執行測試時,即使選件之間沒有差異,仍有 5% 的機會偵測到統計顯著的提升度。
下表彙總了信賴水準的一般解釋:
建議一律使用 95% 或更高的信賴水準。
建議您使用最高的可信度等級,這樣測試就不會產生多少誤判。 不過,較高的信賴水準需要較大量的訪客,因而增加執行測試所需的時間。再者,信賴水準提高會導致統計檢定力降低。
統計檢定力
A/B 測試的統計檢定力是指偵測到某個數量的轉換率有實質差異的機率。由於轉換事件的隨機(隨機)性質,即使兩個選件的轉換率有實際差異,也可能沒有觀察到統計上顯著的差異(只是偶然)。 這種情況稱為誤報或型別II錯誤。
人們經常忽略統計檢定力,因為與統計顯著性相反,執行 A/B 測試不需要判定統計檢定力。然而,忽略統計檢定力時,可能會因為樣本量太小,導致測試無法偵測到不同選件轉換率之間的實際差異。 這種情況會導致測試被誤報主導。
我們會希望統計檢定力較高,測試才會有較大機會可識別出轉換率的實質差異,並產生較少的偽陰性結果。不過,若要提高偵測任何指定提升度的統計能力,需要較多的訪客數量,這會增加進行測試所需的時間。
統計檢定力的常用值是 80%,這表示測試有 80% 的機會偵測到差異等於最低可靠偵測提升度。測試偵測到小幅提升度的機率較低,而偵測到大幅提升度的機率較高。
最低可靠偵測提升度
大部分組織需要測量轉換率中可能的最小差異,因為即使小幅提升度也值得實作。不過,如果您希望A/B測試偵測到小幅提升的機率很高,必須納入測試的訪客數量將高得令人望而卻步。 原因在於,如果轉換率的差異很小,則必須以高精確度來估計這兩個轉換率,以識別差異,這需要許多訪客。 因此,應該依商業需求來決定最低可靠偵測提升度,而且在偵測小幅提升度與花更多時間執行測試之間需要取捨。
例如,假設兩個選件 (A 和 B) 的真實轉換率分別為 10% 和 15%。如果這些選件各顯示給 100 位訪客,由於轉換的隨機本質,選件 A 所觀察到的轉換率有 95% 的機會將落在 4% 至 16% 範圍內,而選件 B 則是落在 8% 至 22% 的範圍內。在統計學上,這些範圍稱為信賴區間。代表對於預估轉換率準確度的信賴度。樣本大小越大 (越多訪客),您對轉換率預估正確就越有信心。
下圖顯示這些機率分布。
因為兩個範圍之間有很大重疊,測試無法判斷轉換率是否不同。因此,有 100 位訪客的這項測試無法區別兩個選件。但是,如果Target向5,000位訪客個別公開選件,則有95%的機會會觀察到轉換率分別落在9%到11%和14%到16%的範圍內。
在此情況下,測試不太可能得出錯誤的結論,因此具有5,000位訪客的測試可區分兩個選件。 有5,000位訪客的測試具有+/-1%的信賴區間。 這表示測試可以偵測到約1%的差異。 因此,舉例來說,如果選件的真實轉換率是 10% 和 10.5%,而非 10% 和 15%,則需要更多訪客才能偵測到差異。