A/A 测试

在网站上使用 Adobe Target,请务必了解A/A测试的含义、执行A/A测试的原因、应该运行测试的时长,以及如何解释结果。

什么是A/A测试?

在解释A/A测试之前,最好先查看A/B测试,以便我们随后可以讨论这些差异。

在标准A/B测试中,流量会分配给两个或更多不同的体验。 一个体验通常是“控制”,系统会根据控制对体验的变体进行测试,以查看哪个体验在给定量度中产生的提升度最高。

但是,A/A测试涉及将流量分配给两个相同的体验,通常情况下,流量分配分50/50。 通过标准A/B测试,您通常希望发现转化的提升。 这与A/A测试不同,在A/A测试中,您的目标通常是确定 相同体验之间提升度的差异。

为什么要测试两个相同的体验?这会产生什么效果?

某些组织在实施新的测试工具(例如 Target,以确定是否:

  • 活动设置正确
  • 代码已正确实施
  • 报表准确

尽管很少有组织会运行A/A测试,但实际上最好在实施该工具后或执行可能影响转化和收入的A/B测试之前,将它们作为“健全性”实验来运行,以建立信任。

当体验相同时,为什么您会看到一个体验的提升度?

在一个体验中,您可能会看到提升度高于另一个(相同)体验的原因有很多:

A/A测试被持续监控

运行任何类型的测试(包括A/A测试)时,常见的问题是持续查看结果,并在您看到统计意义后提前停止测试,并声明入选体验。 分析人员通常会进行所谓的“数据窥探”。 数据检查包括及早、频繁地查看测试数据,同时尝试确定哪个体验的性能更好。 风险在于过早停止测试,这可能会使结果失效。

在A/A测试中,数据泄露通常会导致分析人员在一个体验中看到提升度,而实际上这两个体验应该没有区别,因为它们是相同的。 事实上,通过不断的窥视,A/A测试实际上 担保 显示“统计意义”(即高于某一阈值的置信度,如95%)。

为避免这种情况,并且与常规A/B测试一样,您应提前根据您认为可接受的最小效果大小(低于此值的最小提升度,即某个效果对您的业务并不重要)、功能和显着性级别,确定要使用的样本量。

在A/A测试中,目标将是 not 在测试达到所需的样本量后,查看具有统计意义的结果。

的 Adobe Target样本量计算器 是一个重要工具,可帮助您确定应该针对的样本大小以及运行测试的时间。

此外,请参阅以下文章,以了解有关活动应持续多长时间的信息,以及其他有用的提示和技巧:

统计意义会影响测试结果

测试的显着性级别决定了测试报告两个不同选件之间的转化率存在显着差异的可能性,而实际上,这两个选件之间没有实际差异。 这称为误报或I型错误。 显着性级别是用户指定的阈值,在误报容差与在选择适当显着性级别时必须包含在测试中的访客数量之间进行权衡。

A/A和A/B测试中常用的显着性级别为5%,对应于95%的置信水平(置信水平= 100% — 显着性级别)。 置信水平为95%意味着每次执行测试时,即使体验之间没有差异,也有5%的机会会检测到具有统计意义的提升。

假设您希望通过A/A测试达到95%的置信水平。 如果置信水平为95%,则每20个A/A测试中就有1个会在转化率方面显示具有统计意义的显着提升。 如果置信水平为90%,则在测试相同体验时,每10个测试中就有1个测试会显示转化提升。

最佳实践

如果您决定组织中需要A/A测试,请注意,相同的体验可能会临时显示与控制体验的差异。 这可能是正常的,具体取决于允许测试运行的时间。 如果访客和时间增加,差异应会减小。

最佳做法是使用常规A/B测试方法:使用 Adobe Target大小计算器.

然后,在您得出任何结论之前,请留出足够的时间和访客,并记住,根据测试的显着性级别,有可能会有一个体验显示提升度差异,甚至被宣布为入选者。

在此页面上