A/B 測試該執行多久?

A successful A/B Test activity requires an adequate number of visitors (sample size) to improve your conversion rate, but how do you know how long to run an A/B test? This article contains information about Auto-Allocate activities and the Adobe Target Sample Size Calculator to help you ensure that your activity has a sufficient number of visitors to achieve your goals.

在活動剛開始的幾天,如果其中一個選件表現得比其他選件好很多或差很多,就會很想停止活動。不過,當觀察值數目太少時,觀察到正提升度或負提升度極有可能只是機遇,因為轉換率以很少的訪客數目來算平均值。隨著活動收集更多的資料點,轉換率就會往真正長期值收斂。

重要

提前停止活動是您在執行A/B測試時可能會遭遇的十大陷阱之一。 如需詳細資訊,請 參閱十種常見的A/B測試陷阱以及如何避免

Target 提供工具,協助您的活動擁有足夠大的樣本大小,以達成轉換目標:自動分配。

自動分配

An Auto-Allocate activity is a type of A/B test that identifies a winner among two or more experiences and automatically reallocates more traffic to the winner to increase conversions while the test continues to run and learn.

標準 A/B 測試有其固有成本。您必須耗費流量來測量每個體驗的效能,並透過分析來定奪勝出體驗。即使在您認定某些體驗勝過其他體驗之後,流量分布仍然固定。另外,很難決定樣本大小,必須等到活動執行完整個過程,您才能對獲勝者採取動作。即使完成所有作業,已識別出的獲勝者仍有可能不是真正贏家。

The solution is Auto-Allocate. 自動分配可降低這項成本及定奪勝出體驗時的額外負荷。自動分配會監控所有體驗的目標量度效能,並依比例將更多新加入者安排到表現優異的體驗。有足夠的流量保留來探索其他體驗。即使活動仍在執行,您仍可在結果上看到活動的益處:最佳化與學習並行進行。

自動分配會逐漸將訪客移往勝出體驗,您不必等到活動結束才決定獲勝者。您會更快從提升中受益,因為原本安排到較差體驗的活動加入者會看到潛在的勝出體驗。

使用自動分配功能時,在活動達到最低轉換次數且有足夠信賴度之前,Target 會在活動頁面頂端顯示徽章,指出「尚未有贏家」。Target然後, 會透過在活動頁面的頂端顯示徽章,宣告成功體驗。

For more information, see Auto-Allocate overview.

Adobe Target 樣本大小計算機

If you choose to use a manual A/B Test activity rather than Auto-Allocate, the Target Sample Size Calculator helps you determine the sample size needed for a successful test. 手動A/B測試是固定水準測試,因此計算器非常有用。 使用計算器進行自動 分配 (Auto-Allocate )活動是可選的,因為 Auto-Allocate會為您宣告成功者。 電腦可粗略估計所需的樣本大小。 如需有關如何使用此計算機的詳細資訊,請繼續閱讀。

Before setting up your A/B test, access the Adobe Target sample size calculator.

Adobe Target 樣本大小計算機

在執行任何A/B測試之前,請務必先確定適當的樣本大小(訪客數),以建立活動在評估結果之前應執行的時間。 只要監控活動直到達到統計重要性,就會導致信賴區間被嚴重低估,使測試變得不可靠。 這意味著只要偵測到統計顯著結果,就停止測試並宣布獲勝者。但是,如果不是統計顯著的結果,則允許繼續測試。此程序非常偏袒正面結果,這會增加誤判率,因而扭曲測試的有效顯著水準。

這可能產生大量的誤判,導致實施的選件在長期無法達成預測的提升度。提升度本身並不令人滿意,但更嚴重的後果是,隨著時間的推移,無法準確預測提升度會削弱組織對測試的信任。

本文討論在決定樣本大小時必須平衡的因素,並介紹用來預估足夠樣本大小的試算表計算機。在任何 A/B 測試開始之前,使用樣本大小計算機 (上方提供的連結) 來計算樣本大小,可確保一定能執行符合統計標準的高品質 A/B 測試。

有五個使用者定義參數可定義 A/B 測試。這些參數相互關聯,建立其中四個時,即可算出第五個:

  • 統計顯著性
  • 統計檢定力
  • 最低可靠偵測提升度
  • 基準轉換率
  • 訪客數目

在 A/B 測試中,統計顯著性、統計檢定力、最低可靠偵測提升度及基準轉換率由分析師設定,然後從這些數目算出必要的訪客數目。本文討論這些元素,並提供如何為特定測試決定這些元素的準則。

下圖顯示 A/B 測試可能的四種結果:

最好是沒有偽陽性或偽陰性。但是,統計測試絕不可能保證這點。觀察的趨勢很可能無法代表基礎轉換率。例如,在一次考試中,看看拋硬幣時的正反兩面是否更有可能,即使有公平的硬幣,十次拋硬幣時,也能有十個正面。 統計顯著性和檢定力協助我們將偽陽性率和偽陰性率量化,還可讓我們在給定的測試中,將這兩種比率維持在合理的水準。

統計顯著性

測試的重要性等級可決定測試報告兩個不同選件之間轉換率差異的可能性,而實際上兩者並無實際差異。 這稱為偽陽性或第一型誤差。重要性層級是使用者指定的臨界值,是誤報容忍度與測試中必須包含的訪客數量之間的權衡。

在 A/B 測試中,最初會假設兩個選件有相同的轉換率。然後,根據此假設來計算觀察結果的機率。If this probability (the p-value) is smaller than some predefined threshold (the significance level), Target concludes that the initial assumption–that both offers have the same conversion rate–is incorrect and, therefore, the conversion rates of A and B are statistically different at the given significance level.

A/B 測試中常用的顯著水準是 5%,這對應於信賴水準 95% (信賴水準 = 100% - 顯著水準)。信賴水準 95% 表示每次執行測試時,即使選件之間沒有差異,仍有 5% 的機會偵測到統計顯著的提升度。

下表彙總了信賴水準的一般解釋:

信賴等級 解釋
< 90% 沒有跡象顯示轉換率之間有差異
90-95% 有微弱跡象顯示轉換率之間有差異
95-99% 有中等跡象顯示轉換率之間有差異
99-99.9% 有強烈跡象顯示轉換率之間有差異
+99.9% 有非常強跡象顯示轉換率之間有差異

建議一律使用 95% 或更高的信賴水準。

最好儘可能使用最高的信賴水準,讓測試產生較少的誤判。不過,較高的信賴水準需要較大量的訪客,因而增加執行測試所需的時間。再者,信賴水準提高會導致統計檢定力降低。

統計檢定力

A/B 測試的統計檢定力是指偵測到某個數量的轉換率有實質差異的機率。由於轉換事件的隨機 (推測) 本質,即使兩個選件之間的轉換率有實質差異,還是有可能沒觀察到統計顯著的差異 (只是巧合)。這稱為偽陰性或第二型誤差。

人們經常忽略統計檢定力,因為與統計顯著性相反,執行 A/B 測試不需要判定統計檢定力。不過,如果忽略統計檢定力,測試極可能因為樣本大小太小,而偵測不到不同選件的轉換率之間的實質差異。這會導致測試充滿偽陽性的結果。

我們會希望統計檢定力較高,測試才會有較大機會可識別出轉換率的實質差異,並產生較少的偽陰性結果。不過,需要有大量訪客,才能在偵測任何給定的提升度時提高統計檢定力,而這又需要更多時間來執行測試。

統計檢定力的常用值是 80%,這表示測試有 80% 的機會偵測到差異等於最低可靠偵測提升度。測試偵測到小幅提升度的機率較低,而偵測到大幅提升度的機率較高。

最低可靠偵測提升度

大部分組織需要測量轉換率中可能的最小差異,因為即使小幅提升度也值得實作。不過,如果要讓 A/B 測試有較高的機率偵測到極小的提升度,則需要納入測試的訪客數目會多到令人卻步。原因在於,如果轉換率的差異很小,則必須以高準確度來估計兩個轉換率,才能辨別差異,而這需要很大量的訪客。因此,應該依商業需求來決定最低可靠偵測提升度,而且在偵測小幅提升度與花更多時間執行測試之間需要取捨。

例如,假設兩個選件 (A 和 B) 的真實轉換率分別為 10% 和 15%。如果這些選件各顯示給 100 位訪客,由於轉換的隨機本質,選件 A 所觀察到的轉換率有 95% 的機會將落在 4% 至 16% 範圍內,而選件 B 則是落在 8% 至 22% 的範圍內。在統計學上,這些範圍稱為信賴區間。代表對於預估轉換率準確度的信賴度。樣本大小越大 (越多訪客),您對轉換率預估正確就越有信心。

下圖顯示這些機率分布。

因為兩個範圍之間有很大重疊,測試無法判斷轉換率是否不同。因此,有 100 位訪客的這項測試無法區別兩個選件。不過,如果將選件各公開給 5,000 位訪客,則觀察到的轉換率有 95% 的機會分別落在 9% 至 11% 的範圍,以及 14% 至 16% 的範圍內。

在此情況下,測試不太可能得到錯誤結論,所以有 5,000 位訪客的測試可以區別兩個選件。有 5,000 位訪客的測試具有大約為 +/-1% 的信賴區間。這表示測試可以偵測到大約 1% 的差異。因此,舉例來說,如果選件的真實轉換率是 10% 和 10.5%,而非 10% 和 15%,則需要更多訪客才能偵測到差異。

基準轉換率

基準轉換率是控制選件 (選件 A) 的轉換率。通常,根據以往經驗,您大致上都能正確預估選件的轉換水準。如果不是這樣,例如,因為是新型的選件或創意,可讓測試執行大約一天,以粗估可用於計算樣本大小的基準轉換率。

訪客數目

在長時間執行測試的機會成本與得到偽陽性和偽陰性的風險之間,很難取得平衡。您顯然不希望決策錯誤,但也不應該因為太嚴格或僵硬的測試標準而寸步難行。

一般而言,建議採用 95% 的信賴水準和 80% 的統計檢定力。

樣本大小計算機 (上方提供的連結) 會要求您選定統計顯著性 (建議: 95%) 和統計檢定力 (建議: 80%)。輸入基準轉換率和所有選件的每日流量之後,試算表會輸出偵測到提升度 1%、2%、5%、10%、15% 和 20% (機率等於指定的測試檢定力) 所需的訪客數目。試算表也可讓使用者輸入自訂的最低可靠偵測提升度。此外,試算表會根據使用者輸入的流量水準,輸出測試所需的週數。所需的週數會四捨五入到最接近的整數週,以避免星期幾效應影響結果。

測試所能可靠辨識的最低提升度與所需的訪客數目之間需要取捨。下圖 (以基準 (控制) 轉換率 5% 而言有效) 顯示隨著訪客數目增加,報酬遞減很嚴重。在測試中增加前幾位訪客時,能夠可靠偵測的最低提升度會有極大改善,但之後需要更大量的訪客才能改善測試。此圖有助於在執行測試所需的時間 (取決於需要的訪客數目和網站流量) 與測試能夠可靠偵測的最低提升度之間做出適當取捨。

在此範例中,您可能決定在 100 次測試中,有 80 次能夠偵測到提升度 5% (對應於對立選件的轉換率 (100%+5%)5% = 5.25%) 就足夠,所以每一個選件需要有 100,000 位訪客的樣本大小。如果網站每天有 20,000 位訪客,而您要測試兩個選件,則應該允許測試執行 2100,000/20,000 = 10 天,才能判斷對立選件在統計上是否顯著優於控制選件。

同樣地,建議將所需時間一律四捨五入至最接近的整數週,以避免星期幾效應。因此,在此範例中,測試會執行兩週之後才評估結果。

每次造訪帶來的收入量度

使用「每次造訪帶來的收入 (RPV)」作為量度時,將會多增加一個變異數來源,因為 RPV 是每次訂購的收入與轉換率的乘積 (RPV = 收入 / 訪客數 = (每次訂購的收入 * 訂購數) / 訪客數 = 每次訂購的收入 * (訪客數 * CTR) / 訪客數 = 每次訂購的收入 * CTR),各有自己的變異數。轉換率的變異可以直接使用數學模型來估計,但每個訂單的收入變異是活動特有的。 因此,請使用過去活動中此差異的相關知識,或執行A/B測試數天,以估計收入差異。 差異是根據CSV下載檔案中的「銷售總和」、「銷售總和平方」和「訪客數」的值計算。 建立後,使用試算表計算完成測試所需的時間。

樣本大小計算機 (上方提供的連結) 可協助您設定 RPV 量度。When you open the calculator, you'll see a tab labeled RPV Metric. 使用 RPV 版的計算機時需要下列資訊:

  • 控制選件的訪客數目

  • 控制選件的總收入

    請確定已選取極端訂單篩選器。

  • 控制選件的收入平方和

    確定已勾選極端訂單篩選。

一般而言,使用RPV做為量度需要20-30%的長時間,才能在相同測量提升度層級上達到相同的統計信賴等級。 這是因為RPV在每次轉換時會增加不同順序大小的差異。 在選擇直線轉換率和RPV作為最終業務決策依據的量度時,應考慮這一點。

Correction for comparing multiple offers

每次比較兩個選件時,得到偽陽性 (即使轉換率沒有差異也觀察到統計顯著差異) 的機會等於顯著水準。例如,假設有五個選件 A/B/C/D/E,其中 A 是控制選件,然後執行四次比較 (控制對 B、控制對 C、控制對 D、控制對 E),即使信賴水準是 95%,偽陽性的機率也會有 18.5%,因為 Pr (至少一個偽陽性) = 1 - Pr (沒有偽陽性) = 1 - 0.95 = 18.5%。在此背景下,偽陽性的定義是回報指出控制優於對立或對立優於控制,但其實兩者之間沒有差異。

結論

By using an Auto-Allocate activity, Target identifies a winner among two or more experiences and automatically reallocates more traffic to the winner to increase conversions while the test continues to run and learn. 自動分配可讓您輕鬆達成轉換目標,同時消除猜測工作。

利用本文介紹的樣本大小計算機 (上方提供的連結),並依照所建議的時間量來執行測試,就可確保一定能執行高品質的 A/B 測試,且符合您認為可滿足特定測試的偽陽性率和偽陰性率。如此可確保測試一致,且能夠可靠地偵測到您所尋找的提升度。

本頁內容