A/A 測試

在您的網站上使用 Adobe Target,請務必了解A/A測試是什麼、您為何可能想執行A/A測試、該測試執行多久以及如何解讀結果。

什麼是A/A測試?

在說明A/A測試之前,請先檢閱A/B測試,好讓我們接著討論差異。

在標準A/B測試中,流量會分配給兩個或多個不同的體驗。 一個體驗通常是「控制」,而體驗的變異會根據控制來測試,以查看哪個體驗在指定量度中產生最大提升度。

不過,A/A測試涉及將流量分配給兩個相同的體驗,通常具有50/50流量分配分割。 透過標準A/B測試,您通常會想要發現轉換中的提升度。 這與A/A測試不同,A/A測試的目標通常是判斷是否有 no 相同體驗之間提升度的差異。

為什麼要測試兩個相同的體驗,這會有什麼效果?

某些組織在實作新測試工具時會執行A/A測試,例如 Target,以判斷是否:

  • 活動已正確設定
  • 程式碼已正確實作
  • 報表準確

雖然很少有組織執行A/A測試,但實際上最好將這些測試當成「健全」實驗來執行,以便在實作工具或執行A/B測試之前建立信任,而這些測試可能會影響轉換和收入。

當體驗相同時,為何會看到一個體驗的提升度?

您可能會看到某個體驗提升度高於另一個體驗(相同)的原因有很多:

持續監控A/A測試

執行任何類型的測試(包括A/A測試)時,常見的問題是持續查看結果,並在您看到統計顯著性時過早停止測試,並宣告成功體驗。 分析師經常做所謂的「資料窺探」。 資料檢視需要及早且頻繁地查看測試資料,同時嘗試判斷哪個體驗的效能較佳。 風險在於過早停止測試,這可能會使結果失效。

在A/A測試中,資料檢視通常會導致分析人員在單一體驗中看到提升度,而實際上應該沒有差異,因為這兩個體驗是相同的。 事實上,持續觀察,A/A測試實際上 有擔保 在測試期間的某個時間點顯示「統計顯著性」(即高於特定臨界值的信賴度,例如95%)。

為避免此問題,而且如同一般的A/B測試,因此您應根據您認為可接受的最小影響大小(低於此最小提升度的影響對您的業務並不重要)、功率和顯著性等級,提前決定要使用的樣本大小。

在A/A測試中,目標會是 not 在測試達到所需的樣本大小後,可看到統計顯著的結果。

此 Adobe Target樣本大小電腦 是一項重要工具,可協助您判斷應針對的樣本大小,以及執行測試的時間。

此外,請參閱下列文章,以取得活動執行時間長短以及其他實用提示和秘訣的資訊:

統計顯著性會影響測試結果

測試的顯著性層級決定測試報告兩個不同選件之間轉換率有顯著差異(事實上,沒有實際差異)的可能性。 這稱為誤判或I型錯誤。 顯著水準是使用者指定的臨界值,誤判的容限和在選擇適當顯著水準時必須納入測試的訪客數量之間有取捨。

A/A和A/B測試中常用的顯著水準是5%,這對應至95%的信賴水準(信賴水準= 100% — 顯著水準)。 信賴等級為95%表示每次執行測試時,即使體驗之間沒有差異,仍有5%的機會偵測到統計顯著的提升度。

假設您想要透過A/A測試達到95%信賴等級。 有了95%的信賴水準,每20個A/A測試中就會有1個測試顯示統計顯著的轉換提升度。 有了90%的信賴等級,在測試相同體驗時,每10項測試中就會有1項顯示轉換提升度。

最佳做法

如果您決定組織中需要A/A測試,請注意,相同的體驗可能會暫時顯示與控制的差異。 視允許測試執行的時間而定,這可能是正常的。 如果有更多時間和訪客,差異應會縮小。

最佳實務是使用一般的A/B測試方法:根據最小相關效應大小、所需功率和顯著性,使用 Adobe Target大小電腦.

接著,在您得出任何結論之前,請留意足夠的時間和訪客,並請記住,根據測試的顯著性層級,有可能某個體驗會顯示提升度差異,甚至宣佈為獲勝者。

本頁內容