A/A 测试

在使用Adobe Target在您的网站上执行A/A测试之前,请务必了解什么是A/A测试,为什么要执行A/A测试,运行该测试的时长以及如何解释结果。

什么是A/A测试?

在说明A/A测试之前,最好先回顾A/B测试,以便我们讨论二者的差异。

在标准A/B测试中,流量会分配给两个或更多不同的体验。 一种体验通常是“控制”,针对控制体验的各种变体进行测试,以查看哪个体验在给定量度中创建了最大的提升。

但是,A/A测试涉及将流量分配给两个相同的体验,通常按50/50进行流量分配。 对于标准A/B测试,您通常希望发现转化率提升。 这与A/A测试不同,在A/A测试中,目标通常是确定相同体验之间的提升度是否存在​ no ​差异。

您为什么希望测试两个相同的体验,以及这样做有何效果?

某些组织在实施新的测试工具(如Target)时执行A/A测试,以确定:

  • 活动已正确设置
  • 代码已正确实施
  • 报告准确

虽然很少有组织运行A/A测试,但好的做法是将这些测试作为“正常”实验运行,以在实施工具之后或执行可能影响转化和收入的A/B测试之前建立信任。

为什么在体验相同的情况下,您可能会看到某个体验的提升?

与另一个(相同)体验相比,您可能会看到一个体验的提升,其原因有很多:

A/A测试被持续监控

运行任何类型的测试(包括A/A测试)时的一个常见问题是:不断查看结果,当您看到统计意义时过早地停止测试,并声明入选体验。 分析人员通常会执行所谓的“数据窥视”。 数据窥探涉及尽早频繁地查看测试数据,同时尝试确定哪种体验表现更好。 风险是过早停止测试,这可能会使结果失效。

在A/A测试中,数据窥视通常会导致分析师看到一个体验中的提升,但实际上应该没有区别,因为两个体验是相同的。 事实上,通过连续窥视,A/A测试在测试期间的某个时间点将​ 保证 ​显示“统计意义”(即置信度超过特定阈值,如95%)。

为避免这种情况,并且与常规A/B测试一样,您应该根据您认为可接受的最小影响大小(低于该影响对您的业务不重要的最小提升度)、功率和显着性水平,提前确定要使用的样本大小。

在A/A测试中,目标为​ 不是 ​在您的测试达到所需的样本大小后看到具有统计意义的结果。

Adobe Target Sample Size Calculator是一个重要工具,可帮助您确定应瞄准的样本大小以及测试运行的时长。

此外,请参阅以下文章以了解有关运行活动应持续多长时间的信息,以及其他有用的提示和技巧:

统计意义影响测试结果

测试的显着性水平决定了测试报告两个不同选件之间的转化率存在显着差异的可能性,实际上,这种可能性并不存在实际差异。 这称为误报或类型I错误。 显着性水平是由用户指定的阈值,对于误报,容差与选择适当显着性水平时必须在测试中包含的访客数量之间作出权衡。

A/A和A/B测试中常用的显着性水平为5%,对应于置信度为95%(置信度= 100% — 显着性水平)。 置信水平为95%意味着每次执行测试时,即使体验之间没有差异,也有5%的机会检测到具有统计意义的提升。

假设您希望通过A/A测试获得95%的置信度。 在95%的置信水平下,20 A/A测试中的1可显示转化率的显着统计学提升。 在90%的置信水平下,10分之一的测试在测试相同体验时会显示转化提升。

最佳实践

如果您认为您的组织需要进行A/A测试,请注意,相同的体验可能会暂时与控制体验存在差异。 根据允许运行测试的时间,这可能是正常的。 在给予更多时间和访客的情况下,这种差异应该会缩小。

最佳实践是使用常规的A/B测试方法:使用Adobe Target大小计算器,根据最小的相关影响大小、所需功率和重要性提前确定样本大小。

在得出任何结论之前,请留出充足的时间和访客,同时请记住,根据测试的重要性级别,一种体验可能会显示提升度差异,甚至有可能被宣布为入选者。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654