A/B 測試該執行多久?

Adobe Target中成功的A/B測試活動需要足夠的訪客(樣本大小)來改進轉換率。 您如何知道執行A/B測試需要多久? 本文包含自動分配活動和Adobe Target樣本大小計算器的相關資訊,以協助您確保活動有足夠的訪客達到您的目標。

在活動剛開始的幾天,如果其中一個選件表現得比其他選件好很多或差很多,就會很想停止活動。不過,當觀察值數目太少時,觀察到正提升度或負提升度極有可能只是機遇,因為轉換率以很少的訪客數目來算平均值。隨著活動收集更多的資料點,轉換率就會往真正長期值收斂。

重要

提前停止活動是您在執行A/B測試時可能會遭遇的十大陷阱之一。 如需詳細資訊,請參閱十個常見的A/B測試陷阱,以及如何避免

Adobe Target 提供工具,協助您的活動擁有足夠大的樣本大小,以達成轉換目標:自動分配。

自動分配

自動分配活動是一種A/B測試,可識別兩個或多個體驗中的成功者。 「自動分配」測試會自動將更多流量重新分配給成功者,以增加轉換率,同時測試會繼續執行並學習。

標準 A/B 測試有其固有成本。您必須耗費流量來測量每個體驗的效能,並透過分析來定奪勝出體驗。即使在您認定某些體驗勝過其他體驗之後,流量分布仍然固定。另外,很難決定樣本大小,必須等到活動執行完整個過程,您才能對獲勝者採取動作。而且,確定的贏家仍有可能不是真正的贏家。

解決方案是自動分配。 自動分配可降低這項成本及定奪勝出體驗時的額外負荷。自動分配會監控所有體驗的目標量度效能,並依比例將更多新加入者安排到表現優異的體驗。有足夠的流量保留來探索其他體驗。即使活動仍在執行,您仍可在結果上看到活動的益處:最佳化與學習並行進行。

自動分配會逐漸將訪客移往勝出體驗,您不必等到活動結束才決定獲勝者。您會更快從提升中受益,因為原本安排到較差體驗的活動加入者會看到潛在的勝出體驗。

使用自動分配功能時,在活動達到最低轉換次數且有足夠信賴度之前,Adobe Target 會在活動頁面頂端顯示徽章,指出「尚未有贏家」。Target然後, 會透過在活動頁面的頂端顯示徽章,宣告成功體驗。

如需詳細資訊,請參閱自動配置概述

Adobe Target 樣本大小計算機

如果您選擇使用手動A/B測試活動,而不是自動分配,Target樣本大小計算器將幫助您確定成功測試所需的樣本大小。 手動A/B測試是固定水準測試,因此計算器很有幫助。 使用自動分配活動的計算器是可選的,因為自動分配會為您聲明一個成功者。 電腦可粗略估計所需的樣本大小。 如需有關如何使用此計算機的詳細資訊,請繼續閱讀。

在設定A/B測試之前,請訪問Adobe Target示例大小計算器

Adobe Target 樣本大小計算機

在執行任何A/B測試之前,請務必先確定適當的樣本大小(訪客數),以建立活動在評估結果之前應執行的時間。 只要監控活動直到達到統計重要性,就會導致信賴區間被嚴重低估,使測試變得不可靠。 這意味著只要偵測到統計顯著結果,就停止測試並宣布獲勝者。但是,如果不是統計顯著的結果,則允許繼續測試。此程序非常偏袒正面結果,這會增加誤判率,因而扭曲測試的有效顯著水準。

這可能會產生許多誤報,導致實作的選件最終無法提供預計的提升度。 提升度本身並不令人滿意,但更嚴重的後果是,隨著時間的推移,無法準確預測提升度會削弱組織對測試的信任。

本文討論在決定樣本大小時必須平衡的因素,並介紹用來預估足夠樣本大小的試算表計算機。在任何A/B測試開始之前,使用樣本大小計算器(上面提供的連結)計算樣本大小,可確保您始終執行符合統計標準的高品質A/B測試。

有五個使用者定義參數可定義 A/B 測試。這些參數相互關聯,建立其中四個時,即可算出第五個:

  • 統計顯著性
  • 統計檢定力
  • 最低可靠偵測提升度
  • 基準轉換率
  • 訪客數目

在 A/B 測試中,統計顯著性、統計檢定力、最低可靠偵測提升度及基準轉換率由分析師設定,然後從這些數目算出必要的訪客數目。本文討論這些元素,並提供如何針對特定測試判斷這些度量的指引。

下圖顯示 A/B 測試可能的四種結果:

最好是沒有偽陽性或偽陰性。然而,統計測試永遠無法保證零誤報。 觀察的趨勢很可能無法代表基礎轉換率。例如,在一次考試中,看看拋硬幣時的正反兩面是否更有可能,即使有公平的硬幣,十次拋硬幣時,也能有十個正面。 統計顯著性和檢定力協助我們將偽陽性率和偽陰性率量化,還可讓我們在給定的測試中,將這兩種比率維持在合理的水準。

統計顯著性

測試的重要性等級可決定測試報告兩個不同選件之間轉換率差異的可能性,而實際上兩者並無實際差異。 此情況稱為誤報或I類錯誤。 重要性層級是使用者指定的臨界值,是誤報容忍度與測試中必須包含的訪客數量之間的權衡。

在 A/B 測試中,最初會假設兩個選件有相同的轉換率。然後,根據此假設來計算觀察結果的機率。如果此概率(p值)小於某些預先定義的臨界值(重要性等級),Target會得出結論,初始假設(兩個選件具有相同的轉換率)是不正確的。 因此,A和B在給定意義水準上的轉換率在統計上不同。

A/B 測試中常用的顯著水準是 5%,這對應於信賴水準 95% (信賴水準 = 100% - 顯著水準)。信賴水準 95% 表示每次執行測試時,即使選件之間沒有差異,仍有 5% 的機會偵測到統計顯著的提升度。

下表彙總了信賴水準的一般解釋:

信賴等級 解釋
< 90% 沒有跡象顯示轉換率之間有差異
90-95% 有微弱跡象顯示轉換率之間有差異
95-99% 有中等跡象顯示轉換率之間有差異
99-99.9% 有強烈跡象顯示轉換率之間有差異
+99.9% 有非常強跡象顯示轉換率之間有差異

建議一律使用 95% 或更高的信賴水準。

最好使用最高的可能信賴等級,以便測試產生很少的誤報。 不過,較高的信賴水準需要較大量的訪客,因而增加執行測試所需的時間。再者,信賴水準提高會導致統計檢定力降低。

統計檢定力

A/B 測試的統計檢定力是指偵測到某個數量的轉換率有實質差異的機率。由於轉換事件的隨機 (推測) 本質,即使兩個選件之間的轉換率有實質差異,還是有可能沒觀察到統計顯著的差異 (只是巧合)。此藍本稱為假負值或II類錯誤。

人們經常忽略統計檢定力,因為與統計顯著性相反,執行 A/B 測試不需要判定統計檢定力。不過,如果忽略統計檢定力,測試極可能因為樣本大小太小,而偵測不到不同選件的轉換率之間的實質差異。這會導致測試充滿偽陽性的結果。

我們會希望統計檢定力較高,測試才會有較大機會可識別出轉換率的實質差異,並產生較少的偽陰性結果。不過,需要有較多的訪客來提高偵測任何特定提升度的統計能力,這會增加進行測試所需的時間。

統計檢定力的常用值是 80%,這表示測試有 80% 的機會偵測到差異等於最低可靠偵測提升度。測試偵測到小幅提升度的機率較低,而偵測到大幅提升度的機率較高。

最低可靠偵測提升度

大部分組織需要測量轉換率中可能的最小差異,因為即使小幅提升度也值得實作。不過,如果您希望A/B測試偵測小提升度的可能性很高,則必須包含在測試中的訪客數量將極大。 原因在於,如果轉換率的差異較小,則必須高精度地估計兩個轉換率,以識別需要許多訪客的差異。 因此,應該依商業需求來決定最低可靠偵測提升度,而且在偵測小幅提升度與花更多時間執行測試之間需要取捨。

例如,假設兩個選件 (A 和 B) 的真實轉換率分別為 10% 和 15%。如果這些選件各顯示給 100 位訪客,由於轉換的隨機本質,選件 A 所觀察到的轉換率有 95% 的機會將落在 4% 至 16% 範圍內,而選件 B 則是落在 8% 至 22% 的範圍內。在統計學上,這些範圍稱為信賴區間。代表對於預估轉換率準確度的信賴度。樣本大小越大 (越多訪客),您對轉換率預估正確就越有信心。

下圖顯示這些機率分布。

因為兩個範圍之間有很大重疊,測試無法判斷轉換率是否不同。因此,有 100 位訪客的這項測試無法區別兩個選件。但是,如果Target將選件暴露給每位5,000位訪客,則95%的可觀察轉換率分別降至9%至11%和14%至16%的範圍。

在此情況下,測試不太可能得出錯誤結論,因此對5,000位訪客的測試可以區分兩個選件。 有 5,000 位訪客的測試具有大約為 +/-1% 的信賴區間。這表示測試可以偵測到大約 1% 的差異。因此,舉例來說,如果選件的真實轉換率是 10% 和 10.5%,而非 10% 和 15%,則需要更多訪客才能偵測到差異。

基準轉換率

基準轉換率是控制選件 (選件 A) 的轉換率。通常,根據以往經驗,您大致上都能正確預估選件的轉換水準。如果不是這樣,例如,因為是新型的選件或創意,可讓測試執行大約一天,以粗估可用於計算樣本大小的基準轉換率。

訪客數目

在長時間執行測試的機會成本與得到偽陽性和偽陰性的風險之間,很難取得平衡。您顯然不希望決策錯誤,但也不應該因為太嚴格或僵硬的測試標準而寸步難行。

一般而言,建議採用 95% 的信賴水準和 80% 的統計檢定力。

樣本大小計算機 (上方提供的連結) 會要求您選定統計顯著性 (建議: 95%) 和統計檢定力 (建議: 80%)。輸入基準轉換率和所有選件的每日流量之後,試算表會輸出偵測到提升度 1%、2%、5%、10%、15% 和 20% (機率等於指定的測試檢定力) 所需的訪客數目。試算表也可讓使用者輸入自訂的最低可靠偵測提升度。此外,試算表會根據使用者輸入的流量水準,輸出測試所需的週數。所需的週數會四捨五入到最接近的整數週,以避免星期幾效應影響結果。

測試所能可靠辨識的最低提升度與所需的訪客數目之間需要取捨。下圖 (以基準 (控制) 轉換率 5% 而言有效) 顯示隨著訪客數目增加,報酬遞減很嚴重。在測試中增加前幾位訪客時,能夠可靠偵測的最低提升度會有極大改善,但之後需要更大量的訪客才能改善測試。此圖有助於在執行測試所需的時間 (取決於需要的訪客數目和網站流量) 與測試能夠可靠偵測的最低提升度之間做出適當取捨。

在此範例中,您可能決定在 100 次測試中,有 80 次能夠偵測到提升度 5% (對應於對立選件的轉換率 (100%+5%)5% = 5.25%) 就足夠,所以每一個選件需要有 100,000 位訪客的樣本大小。如果網站每天有 20,000 位訪客,而您要測試兩個選件,則應該允許測試執行 2100,000/20,000 = 10 天,才能判斷對立選件在統計上是否顯著優於控制選件。

同樣地,建議將所需時間一律四捨五入至最接近的整數週,以避免星期幾效應。因此,在此範例中,測試會執行兩週之後才評估結果。

每次造訪帶來的收入量度

使用「每次造訪帶來的收入 (RPV)」作為量度時,將會多增加一個變異數來源,因為 RPV 是每次訂購的收入與轉換率的乘積 (RPV = 收入 / 訪客數 = (每次訂購的收入 * 訂購數) / 訪客數 = 每次訂購的收入 * (訪客數 * CTR) / 訪客數 = 每次訂購的收入 * CTR),各有自己的變異數。轉換率的變異可以直接使用數學模型來估計,但每個訂單的收入變異是活動特有的。 因此,請使用過去活動中此差異的相關知識,或執行A/B測試數天,以估計收入差異。 差異是根據CSV下載檔案中的「銷售總和」、「銷售總和平方」和「訪客數」的值計算。 建立後,使用試算表計算完成測試所需的時間。

樣本大小計算機 (上方提供的連結) 可協助您設定 RPV 量度。當您開啟計算器時,您會看到標有RPV量度的標籤。 使用 RPV 版的計算機時需要下列資訊:

  • 控制選件的訪客數目

  • 控制選件的總收入

    請確定已選取極端訂單篩選器。

  • 控制選件的收入平方和

    確定已勾選極端訂單篩選。

一般而言,使用RPV做為量度需要20-30%的長時間,才能在相同測量提升度層級上達到相同的統計信賴等級。 這是因為RPV在每次轉換時會增加不同順序大小的差異。 在選擇直線轉換率和RPV作為最終業務決策依據的量度時,應考慮這一點。

比較多個選件的修正

每次比較兩個選件時,得到偽陽性 (即使轉換率沒有差異也觀察到統計顯著差異) 的機會等於顯著水準。例如,假設有五個選件 A/B/C/D/E,其中 A 是控制選件,然後執行四次比較 (控制對 B、控制對 C、控制對 D、控制對 E),即使信賴水準是 95%,偽陽性的機率也會有 18.5%,因為 Pr (至少一個偽陽性) = 1 - Pr (沒有偽陽性) = 1 - 0.95 = 18.5%。在此背景下,偽陽性的定義是回報指出控制優於對立或對立優於控制,但其實兩者之間沒有差異。

結論

透過使用自動分配活動,Target可識別兩個或兩個以上體驗中的成功者,並自動將更多流量重新分配給成功者,以在測試繼續執行和學習時增加轉換。 自動分配可讓您輕鬆達成轉換目標,同時消除猜測工作。

使用本文中介紹的範例大小計算器(連結),並允許測試在其建議的時間長度內執行,可確保您一律執行符合您認為適合特定測試的假陽性和假陰性率的高品質A/B測試。 如此可確保測試一致,且能夠可靠地偵測到您所尋找的提升度。

本頁內容

Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now