A/B 測試該執行多久?

成功 A/B測試 中的活動 Adobe Target 需要足夠的訪客(樣本大小)來提高轉換率。 您如何知道執行A/B測試的時間長度? 本文包含有關以下專案的資訊: 自動分配 活動與 Adobe Target 樣本大小計算器可協助您確保您的活動有足夠訪客可達成您的目標。

如果其中一個選件在活動的最初幾天效能優於或低於其他選件,您就很容易停止活動。 不過,當觀察值數目太少時,觀察到正提升度或負提升度極有可能只是機遇,因為轉換率以很少的訪客數目來算平均值。隨著活動收集更多的資料點,轉換率就會往真正長期值收斂。

重要

過早停止活動是執行A/B測試時可能落入陷阱的十大隱患之一。 如需詳細資訊,請參閱 十個常見的A/B測試陷阱和避免方法.

Adobe Target 提供的工具可協助確保您的活動有足夠的範例大小來達成您的轉換目標:自動分配。

自動分配

一個 自動分配 活動是一種A/B測試,可識別兩個或更多體驗中的成功者。 一個 自動分配 測試會自動重新分配更多流量給成功者以增加轉換,同時測試會繼續執行和學習。

標準 A/B 測試有其固有成本。您必須耗費流量來測量每個體驗的效能,並透過分析來定奪勝出體驗。即使在您認定某些體驗勝過其他體驗之後,流量分布仍然固定。另外,很難決定樣本大小,必須等到活動執行完整個過程,您才能對獲勝者採取動作。而且已識別的獲勝者也有可能不是真正的獲勝者。

解決方案是 自動分配. 自動分配可降低這項成本及定奪勝出體驗時的額外負荷。自動分配會監控所有體驗的目標量度效能,並依比例將更多新加入者安排到表現優異的體驗。有足夠的流量保留來探索其他體驗。即使活動仍在執行中,您仍可在結果中看到活動的好處:最佳化與學習同時發生。

自動分配會逐漸將訪客移往勝出體驗,您不必等到活動結束才決定獲勝者。您會更快從提升中受益,因為原本安排到較差體驗的活動加入者會看到潛在的勝出體驗。

使用時 自動分配, Target 在活動達到最低轉換次數且有足夠信賴度之前,會在活動頁面頂端顯示徽章,指出「尚未有贏家」。 Target然後, 會透過在活動頁面的頂端顯示徽章,宣告成功體驗。

如需詳細資訊,請參閱 自動分配總覽.

Adobe Target 樣本大小電腦

如果您選擇使用手動 A/B測試 活動,而非 自動分配,則 Target 樣本大小計算器可協助您判斷成功測試所需的樣本大小。 手動A/B測試是固定水平線測試,因此計算器會很有幫助。 將計算器用於 自動分配 活動為選用,因為 自動分配 為您宣告獲勝者。 計算器會提供您所需樣本大小的粗略估計。 如需有關如何使用此計算機的詳細資訊,請繼續閱讀。

設定A/B測試前,請先存取 Adobe Target 樣本大小電腦.

Adobe Target 樣本大小計算機

在執行A/B測試以建立活動在評估結果之前應執行的時間之前,請務必確定足夠的樣本大小(訪客數)。 在達到統計顯著性之前簡單地監控活動會導致信賴區間被大幅低估,使測試變得不可靠。 這個結果背後的直覺是,在偵測到統計上顯著的結果時,測試會停止,並宣告獲勝者。 不過,如果結果沒有統計顯著性,則可繼續測試。 此程序非常偏袒正面結果,這會增加誤判率,因而扭曲測試的有效顯著水準。

此程式可能會導致許多誤判,進而導致實施未最終提供預測提升度的選件。 提升度本身不佳,令人不滿意,但更嚴重的後果是,隨著時間的推移,無法準確預測提升度會削弱組織對測試慣例的信任。

本文討論決定樣本大小時必須平衡的因素,並介紹用於估計足夠樣本大小的計算器。 在任何A/B測試開始之前,使用樣本大小計算器(以上提供的連結)計算樣本大小,有助於確保您一律執行符合統計標準的高品質A/B測試。

有五個使用者定義參數可定義 A/B 測試。這些參數相互關聯,建立其中四個時,即可算出第五個:

  • 統計顯著性
  • 統計檢定力
  • 最低可靠偵測提升度
  • 基準轉換率
  • 訪客數目
重要

若要取得準確的結果,您必須先重新載入頁面,才能變更任何引數編號。 每次變更引數編號時都重複此程式。

在 A/B 測試中,統計顯著性、統計檢定力、最低可靠偵測提升度及基準轉換率由分析師設定,然後從這些數目算出必要的訪客數目。本文會討論這些元素,並提供如何針對特定測試決定這些量度的准則。

範例大小影像

下圖顯示 A/B 測試可能的四種結果:

結果影像

最好是沒有偽陽性或偽陰性。然而,統計測試永遠無法保證取得零誤判。 觀察的趨勢很可能無法代表基礎轉換率。例如,在測試中,看看翻硬幣時正面或反面是否更可能,即使使用平價硬幣,十次擲硬幣時也有可能得到10個正面或反面。 統計顯著性和檢定力協助我們將偽陽性率和偽陰性率量化,還可讓我們在給定的測試中,將這兩種比率維持在合理的水準。

統計顯著性

測試的顯著水準會決定測試報告兩個不同選件之間轉換率重大差異的可能性,而事實上並沒有實際差異。 這種情況稱為誤判或Type I錯誤。 顯著水準是使用者指定的臨界值,是誤判容許度與必須包含在測試中的訪客數量之間的折衷。

在 A/B 測試中,最初會假設兩個選件有相同的轉換率。然後,根據此假設來計算觀察結果的機率。如果此機率(p值)小於某些預先定義的臨界值(顯著水準), Target 得出結論認為,初始假設(即兩個選件具有相同的轉換率)不正確。 因此,A和B的轉換率在指定的顯著水準上有統計上的差異。

A/B 測試中常用的顯著水準是 5%,這對應於信賴水準 95% (信賴水準 = 100% - 顯著水準)。信賴水準 95% 表示每次執行測試時,即使選件之間沒有差異,仍有 5% 的機會偵測到統計顯著的提升度。

下表彙總了信賴水準的一般解釋:

信賴等級 解釋
< 90% 沒有跡象顯示轉換率之間有差異
90-95% 有微弱跡象顯示轉換率之間有差異
95-99% 有中等跡象顯示轉換率之間有差異
99-99.9% 有強烈跡象顯示轉換率之間有差異
+99.9% 有非常強跡象顯示轉換率之間有差異

建議一律使用 95% 或更高的信賴水準。

建議您使用最高的可信度等級,這樣測試就不會產生多少誤判。 不過,較高的信賴水準需要較大量的訪客,因而增加執行測試所需的時間。再者,信賴水準提高會導致統計檢定力降低。

統計檢定力

A/B 測試的統計檢定力是指偵測到某個數量的轉換率有實質差異的機率。由於轉換事件的隨機(隨機)性質,即使兩個選件的轉換率有實際差異,也可能沒有觀察到統計上顯著的差異(只是偶然)。 這種情況稱為誤報或型別II錯誤。

人們經常忽略統計檢定力,因為與統計顯著性相反,執行 A/B 測試不需要判定統計檢定力。然而,忽略統計檢定力時,可能會因為樣本量太小,導致測試無法偵測到不同選件轉換率之間的實際差異。 這種情況會導致測試被誤報主導。

我們會希望統計檢定力較高,測試才會有較大機會可識別出轉換率的實質差異,並產生較少的偽陰性結果。不過,若要提高偵測任何指定提升度的統計能力,需要較多的訪客數量,這會增加進行測試所需的時間。

統計檢定力的常用值是 80%,這表示測試有 80% 的機會偵測到差異等於最低可靠偵測提升度。測試偵測到小幅提升度的機率較低,而偵測到大幅提升度的機率較高。

最低可靠偵測提升度

大部分組織需要測量轉換率中可能的最小差異,因為即使小幅提升度也值得實作。不過,如果您希望A/B測試偵測到小幅提升的機率很高,必須納入測試的訪客數量將高得令人望而卻步。 原因在於,如果轉換率的差異很小,則必須以高精確度來估計這兩個轉換率,以識別差異,這需要許多訪客。 因此,應該依商業需求來決定最低可靠偵測提升度,而且在偵測小幅提升度與花更多時間執行測試之間需要取捨。

例如,假設兩個選件 (A 和 B) 的真實轉換率分別為 10% 和 15%。如果這些選件各顯示給 100 位訪客,由於轉換的隨機本質,選件 A 所觀察到的轉換率有 95% 的機會將落在 4% 至 16% 範圍內,而選件 B 則是落在 8% 至 22% 的範圍內。在統計學上,這些範圍稱為信賴區間。代表對於預估轉換率準確度的信賴度。樣本大小越大 (越多訪客),您對轉換率預估正確就越有信心。

下圖顯示這些機率分布。

probability_distributions圖片

因為兩個範圍之間有很大重疊,測試無法判斷轉換率是否不同。因此,有 100 位訪客的這項測試無法區別兩個選件。但是,如果 Target 向5,000位訪客個別公開選件,95%的機率會分別在9%至11%和14%至16%的範圍內觀察轉換率。

probability_distributions2圖片

在此情況下,測試不太可能得出錯誤的結論,因此具有5,000位訪客的測試可區分兩個選件。 有5,000位訪客的測試具有+/-1%的信賴區間。 這表示測試可以偵測到約1%的差異。 因此,舉例來說,如果選件的真實轉換率是 10% 和 10.5%,而非 10% 和 15%,則需要更多訪客才能偵測到差異。

基準轉換率

基準轉換率是控制選件 (選件 A) 的轉換率。通常,您會根據經驗瞭解優惠方案的轉換級別。 如果不是這樣,例如,因為是新型的選件或創意,可讓測試執行大約一天,以粗估可用於計算樣本大小的基準轉換率。

訪客數目

在長時間執行測試的機會成本與得到偽陽性和偽陰性的風險之間,很難取得平衡。您顯然不希望決策錯誤,但也不應該因為太嚴格或僵硬的測試標準而寸步難行。

一般而言,建議採用 95% 的信賴水準和 80% 的統計檢定力。

樣本大小計算機 (上方提供的連結) 會要求您選定統計顯著性 (建議: 95%) 和統計檢定力 (建議: 80%)。輸入基準轉換率和所有選件的每日流量之後,試算表會輸出偵測到提升度 1%、2%、5%、10%、15% 和 20% (機率等於指定的測試檢定力) 所需的訪客數目。試算表也可讓使用者輸入自訂的最小提升度,此提升度是能夠可靠偵測的。 此外,試算表會根據使用者輸入的流量水準,輸出測試所需的週數。所需的周數會四捨五入至最接近的整週,以避免周中的某天影響結果。

測試所能可靠辨識的最低提升度與所需的訪客數目之間需要取捨。下圖 (以基準 (控制) 轉換率 5% 而言有效) 顯示隨著訪客數目增加,報酬遞減很嚴重。在測試中增加前幾位訪客時,能夠可靠偵測的最低提升度會有極大改善,但之後需要更大量的訪客才能改善測試。此圖有助於在執行測試所需的時間 (取決於需要的訪客數目和網站流量) 與測試能夠可靠偵測的最低提升度之間做出適當取捨。

samplesizecontrol影像

在此範例中,您可以決定偵測到提升度5% (對應於替代選件的轉換率(100%+5%)*5% = 5.25%),100次測試中有80次足以滿足需求,因此每個選件需要100,000位訪客的範例大小。 如果網站每天有20,000位訪客,而您正在測試兩個選件,則測試應該允許執行2*100,000/20,000 = 10天後,才能判斷替代選件在統計上是否顯著優於控制選件。

同樣地,建議將所需時間一律四捨五入至最接近的整數週,以避免星期幾效應。因此,在此範例中,測試會執行兩週之後才評估結果。

每次造訪帶來的收入量度

使用每次造訪帶來的收入(RPV)作為量度時,會新增額外的差異來源,因為RPV是每份訂單帶來的收入和轉換率(RPV =收入/#visitors = (每份訂單帶來的收入)的產品 * #orders) / #位訪客=每筆訂單收入 * (#visitors * CTR) / #visitors =每筆訂單收入 * CTR),每個變數都有自己的變數。 轉換率的變異數可使用數學模型直接估計,但每筆訂單的收入變異數是活動專屬的。 因此,請利用來自過去活動的此差異知識,或執行A/B測試數天,以估計收入差異。 差異是以CSV下載檔案中的「銷售總計」、「銷售平方」和「訪客數」的值計算。 建立後,請使用試算表計算完成測試所需的時間。

樣本大小計算機 (上方提供的連結) 可協助您設定 RPV 量度。當您開啟電腦時,您會看到一個標籤為 RPV量度. 使用 RPV 版的計算機時需要下列資訊:

  • 控制選件的訪客數目

  • 控制選件的總收入

    請確定已選取極端順序篩選器。

  • 控制選件的收入平方和

    請確定已勾選極端順序篩選器。

一般而言,以RPV作為量度時,需要再花20-30%的時間,才能達到相同測量提升度水準的統計信賴度。 這是因為RPV在每次轉換時新增了不同訂單大小的變數。 在直接轉換率和RPV之間選擇作為最終業務決策基礎的量度時,這應該是考量因素。

比較多個選件時修正

每次比較兩個選件時,得到偽陽性 (即使轉換率沒有差異也觀察到統計顯著差異) 的機會等於顯著水準。例如,假設有五個選件 A/B/C/D/E,其中 A 是控制選件,然後執行四次比較 (控制對 B、控制對 C、控制對 D、控制對 E),即使信賴水準是 95%,偽陽性的機率也會有 18.5%,因為 Pr (至少一個偽陽性) = 1 - Pr (沒有偽陽性) = 1 - 0.95 = 18.5%。在此背景下,偽陽性的定義是回報指出控制優於對立或對立優於控制,但其實兩者之間沒有差異。

結論

藉由使用 自動分配 活動, Target 會從兩個或多個體驗中識別獲勝者,並自動重新分配更多流量給獲勝者以增加轉換,同時測試會繼續執行和學習。 自動分配可讓您輕鬆達成轉換目標,同時消除猜測工作。

使用本文中介紹的樣本大小計算器(以上提供的連結)並允許測試在其建議的時間內執行,可以確保您一律執行符合您判斷為適合特定測試的誤判和誤判率的高品質A/B測試。 如此可確保測試一致,且能夠可靠地偵測到您所尋找的提升度。

本頁內容