A/A测试

在使用Adobe Target在您的站点上执行A/A测试之前,请务必了解A/A测试是什么,您为什么要执行A/A测试,运行测试的时间以及如何解释测试结果。

什么是A/A测试?

在解释A/A测试之前,最好先查看A/B测试,然后再讨论其差异。

在标准A/B测试中,流量被分配给两个或多个不同的体验。 一种体验通常是“控制”,根据控制测试体验的各种变量,以了解哪个体验在给定指标下产生最大提升。

但是,A/A测试涉及将流量分配给两个相同的体验,通常采用50/50流量分配分割。 通过标准A/B测试,您通常希望发现转化率的提升。 这与A/A测试不同,在A/A测试中,您的目标通常是确定相同体验之间的提升度存在​no​差异。

为什么要测试两种相同的体验,这会产生什么效果?

一些组织在实施新的测试工具(如Target)时执行A/A测试,以确定:

  • 活动设置正确
  • 代码实现正确
  • 报告准确

尽管很少有组织运行A/A测试,但实际上最好在实施该工具后或执行A/B测试之前,将它们作为“完整性”实验运行,以建立信任,这可能会影响转化率和收入。

当体验相同时,您为何会看到一次体验的提升?

您可能会从一次体验中看到提升,而从另一次体验(相同)中看到提升,原因有很多:

A/A测试不能运行足够长

运行任何类型的测试(包括A/A测试)的常见问题是过早停止测试并声明获胜体验。 分析师经常做所谓的“数据偷窥”。 数据查看包括及早、频繁地查看测试数据,同时尝试确定哪种体验的效果更好。 风险在于过早停止测试,这可能会使结果失效。

在A/A测试中,数据泄露往往会让分析师在一次体验中看到提升,因为他们认为这两种体验应该没有区别,因为它们是相同的。 如果有时间和足够的访问量,电梯间的差距应会缩小。

因此,与常规A/B测试一样,您应提前根据您认为可以接受的最小效果大小、强度和重要性级别决定要使用的样本大小。 在A/A测试中,目标是在测试达到所需样本大小后,​看到统计上显着的结果。

Adobe Target样本大小计算器是帮助您确定应针对的样本大小以及运行测试的时间的重要工具。

此外,请参阅以下文章以了解有关运行活动的时间以及其他有用提示和技巧的信息:

统计意义影响测试结果

测试的重要性级别决定了测试报告在两个不同优惠之间的转化率发生显着差异的可能性,而实际上,两者之间没有真正差异。 这称为假阳性或I型错误。 显着性级别是用户指定的阈值,在误报容限和选择适当的显着性级别时必须包括在测试中的访客数之间存在权衡。

A/A和A/B测试中常用的显着性级别为5%,与95%的置信度级别(置信度级别= 100% —— 显着性级别)相对应。 置信度为95%意味着每次进行测试时,即使体验之间没有差异,也有5%的机会检测到统计上显着的提升。

假设您希望通过A/A测试达到95%的置信度。 在置信度为95%的情况下,每20个A/A测试中就有1个可显着提高转化率。 在置信度为90%的情况下,在测试相同体验时,每10项测试中就有1项可能显示转化率的提高。

最佳实践

如果您决定组织中必须进行A/A测试,请注意,相同的体验可能会临时显示与控制的不同。 这可能是正常的,具体取决于允许测试运行的时间。 如果时间和访客更多,差别应该会缩小。

最佳做法是使用常规的A/B测试方法:使用Adobe Target大小计算器根据最小效果大小、所需功率和重要性提前确定样本大小。

然后,在您得出任何结论之前,请留出足够的时间和访客,并记住,根据测试的重要性级别,一次体验有可能显示提升差异,甚至会被宣布为赢家。

在此页面上