A/A測試

在使用Adobe Target在您的網站上執行A/A測試之前,請務必瞭解A/A測試是什麼、您為何要執行A/A測試、您應執行測試的時間,以及如何解譯結果。

什麼是A/A測試?

在解釋A/A測試之前,請先檢閱A/B測試,好讓我們再討論這些差異。

在標準A/B測試中,流量會分配給兩個或多個不同的體驗。 其中一種體驗通常是「控制」,並根據控制項測試體驗的變化,以查看哪個體驗在指定量度中產生最大提升度。

不過,A/A測試需要將流量分配給兩個相同的體驗,通常是50/50流量分配分割。 透過標準A/B測試,您通常想要發現轉換中的提升度。 這與A/A測試不同,A/A測試的目標通常是判斷相同體驗之間的提升度有​no​差異。

您為何要測試兩個相同的體驗,以及這會帶來什麼?

某些組織在實作新測試工具(例如Target)時會執行A/A測試,以判斷:

  • 活動已正確設定
  • 代碼已正確實作
  • 報告是正確的

雖然很少有組織執行A/A測試,但實際上,最好在實作工具後或執行A/B測試前,以「理智」實驗的方式執行這些測試,以建立信任,進而影響轉化率和營收。

當體驗完全相同時,您為何會看到單一體驗的提升度?

有許多原因可讓您在一個體驗中看到提升度,而在另一個(相同)體驗中看到提升度:

A/A測試不能運行足夠長

執行任何類型的測試(包括A/A測試)的常見問題是提前停止測試並宣告成功體驗。 分析師通常會做所謂的「資料窺探」。 資料偵測需要及早、經常地檢視測試資料,同時嘗試判斷哪個體驗的效能更好。 風險在於過早地停止測試,這可能會使結果失效。

在A/A測試中,資料窺探通常會導致分析人員在一次體驗中看到提升度,因為他們認為兩者的體驗應該沒有差異,因為兩者是相同的。 在給定時間和足夠的瀏覽次數時,提升度的差異應會縮小。

因此,與一般A/B測試一樣,您應根據您認為可接受的最小效果大小、功率和重要性等級,提前決定要使用的樣本大小。 在A/A測試中,目標是在測試達到所需樣本大小後,not​看到統計上顯著的結果。

Adobe Target範例大小計算器是一項重要工具,可協助您判斷應針對的範例大小,以及您應執行測試的時間。

此外,請參閱下列文章,以取得有關您應執行活動的時間,以及其他實用提示和秘訣的資訊:

統計重要性會影響測試結果

測試的重要性等級可決定測試報告兩個不同選件之間轉換率差異的可能性,而實際上兩者並無實際差異。 這稱為誤報或I型錯誤。 重要性層級是使用者指定的臨界值,在誤報容忍度與選擇適當重要性層級時必須包含在測試中的訪客數量之間,存在取捨。

A/A和A/B測試中常用的重要度為5%,相當於95%的信賴度(信賴度= 100% —— 重要度)。 信賴等級為95%表示每次執行測試時,即使體驗之間沒有差異,仍有5%的機率可偵測統計上顯著的提升。

假設您想要透過A/A測試達到95%的信賴等級。 有了95%的信賴等級,每20個A/A測試中就有1個測試顯示轉換率在統計上有顯著提升。 有了90%的信賴等級,每10個測試中就有1個測試在測試相同的體驗時顯示轉換率的提升。

最佳做法

如果您決定組織中必須進行A/A測試,請注意,相同的體驗可能會暫時顯示與控制的差異。 這可能是正常的,視允許測試執行的時間而定。 如果有更多時間和訪客,差異應會縮小。

最佳實務是使用一般的A/B測試方法:使用Adobe Target Size Calculator,根據最小效果大小、所需功率和重要性提前決定樣本大小。

然後,在您得出任何結論之前,請留意適當的時間和訪客,並記住,根據測試的重要性等級,有可能會有一次體驗顯示提升度差異,甚至被宣佈為贏家。

本頁內容