A/B 测试应该持续多长时间?

Adobe Target中成功的A/B测试活动需要足够的访客(样本大小)来改进转化率。 您如何知道要运行A/B测试多长时间? 本文包含有关自动分配活动和Adobe Target示例大小计算器的信息,可帮助您确保活动拥有足够的访客来实现您的目标。

如果在活动的前几天中,就有一个选件的表现大大优于或弱于其他选件,那么很有可能在此时即停止活动。但是,当观察数量较低时,很有可能只是偶然观察到正或负的提升,因为转化率只是少数访客的平均值。随着活动收集的数据点越来越多,转化率会逐渐靠近真正的长期值。

重要

提前停止活动是执行A/B测试时您可能会遇到的十大缺陷之一。 有关详细信息,请参阅十个常见的A/B测试缺陷以及如何避免它们

Adobe Target 提供工具,帮助确保您的活动拥有足够大的样本大小以实现您的转化目标:自动分配。

自动分配

自动分配活动是一种A/B测试类型,可在两个或多个体验中识别优胜者。 “自动分配”测试会自动将更多流量重新分配给入选方,以提高转换率,同时测试继续运行和学习。

标准 A/B 测试具有一定的固有成本。您必须花费流量来衡量每个体验的性能,并通过分析找出入选体验。即使在您认识到某些体验的性能优于其他体验之后,流量分配仍保持不变。此外,要算出样本量也很复杂,并且活动必须运行其整个过程,然后才能对入选者执行操作。而且,确定的赢家可能不是真正的赢家。

解决方案为自动分配。 自动分配可降低确定入选体验的成本和开销。自动分配会监控所有体验的目标量度性能,并按比例将更多新参加者发送到高性能体验。同时,也会保留足够的流量来探索其他体验。即使活动仍在运行,您也可以看到活动对结果的益处:优化与学习并行进行。

自动分配会逐渐将访客移到入选体验,而无需您等到活动结束才确定入选者。您可以更快地从提升度中受益,因为原本将被发送到不太成功的体验的活动参加者现在会看到潜在的入选体验。

使用自动分配功能时,Adobe Target 会在活动页面的顶部显示一个标记,在活动达到最低转化次数,且具有足够的置信度之前,该标记会一直指示“还没有入选者”。Target然后, 会通过在活动页面顶部显示一个徽章来确定入选体验。

有关详细信息,请参阅自动分配概述

AdobeTarget示例大小计算器

如果选择使用手动A/B测试活动,而不是自动分配,则Target采样大小计算器可以帮助您确定成功测试所需的采样大小。 手动A/B测试是固定水平测试,因此计算器很有帮助。 使用自动分配活动的计算器是可选的,因为自动分配为您声明了入选方。 该计算器为您提供所需样本大小的粗略估计。 继续阅读可了解有关如何使用计算器的更多信息。

在设置A/B测试之前,请访问Adobe Target 示例大小计算器

Adobe Target 样本量计算器

在执行任何A/B测试之前,务必确定适当的样本大小(访客数),以确定活动在评估结果之前应运行的时间。 仅仅监控活动直到达到统计重要性,就会导致置信区间被大大低估,使测试变得不可靠。 此结果的依据是,如果检测到具有统计意义的结果,则停止测试并确定入选者。但是,如果结果不具有统计意义,则允许测试继续。此过程非常容易产生正面的结果,这会增加误报率,并因此扭曲测试的有效显著性水平。

这可能导致许多误报,从而导致实施最终无法提供预测提升的优惠。 提升本身不够令人满意,但更严重的后果是,随着时间的推移,无法准确预测提升会削弱组织对测试这一实践的信任。

本文将讨论确定样本量时必须权衡的因素,并介绍用于估算足够样本量的电子表格计算器。在任何A/B测试开始之前,使用样本大小计算器(上面提供链接)计算样本大小,可确保始终运行符合统计标准的高质量A/B测试。

有五个用户定义的参数可以对 A/B 测试进行定义。这些参数是相互关联的,因此,当已确定其中的四个参数时,便可以计算出第五个参数:

  • 统计意义
  • 统计功效
  • 能够可靠检测到的最小提升度
  • 基准线转化率
  • 访客数量

对于 A/B 测试,由分析人员设置统计意义、统计功效、能够可靠检测到的最小提升度和基准线转化率,然后根据这些数字计算所需的访客数量。本文讨论这些元素,并提供如何确定特定测试的这些量度的指南。

下图说明了 A/B 测试可能出现的四种结果:

最好不要出现误报或漏报。然而,统计测试无法保证获得零误报。 始终存在这种可能的情况:观察到的趋势并不代表潜在的转化率。例如,在一个测试中,你可以看出,抛硬币时的正面或反面是否更有可能,即便有一枚公平的硬币,十次抛掷的正面或反面也能有十个头。 统计意义和功效可帮助我们量化误报和漏报率,并使我们能够在给定测试中将它们保持在合理水平。

统计意义

测试的重要性级别决定了测试报告在两个不同优惠之间的转化率存在显着差异的可能性,而实际上,两者之间并无实际差异。 此情况称为错误正数或I类错误。 显着性级别是用户指定的阈值,是误报容忍度与测试中必须包含的访客数之间的权衡。

在 A/B 测试中,最开始假设两种选件均具有相同的转化率。然后根据这个假设计算观察到的结果的概率。如果此概率(p值)小于某些预定义阈值(显着性级别),Target得出结论,初始假设(即两个优惠具有相同转化率)是不正确的。 因此,A和B的转化率在给定的显着性水平上存在统计学差异。

A/B 测试中常用的显著性水平是 5%,这与 95% 的置信水平相对应(置信度 = 100% - 显著性水平)。95% 的置信水平意味着每次进行测试时,即使选件之间实际没有差异,也有 5% 的概率检测到具有统计意义的提升度。

下表总结了对置信水平的一般性解释:

置信水平 解释
< 90% 没有证据表明转化率存在差异
90-95% 没有充分的证据表明转化率存在差异
95-99% 有比较充分的证据表明转化率存在差异
99-99.9% 具有可靠的证据表明转化率存在差异
+99.9% 具有强有力的证据表明转化率存在差异

建议始终使用 95% 或更高的置信水平。

最好使用尽可能高的置信度,以便测试产生很少的误报。 然而,置信水平越高,所需的访客数量就越多,从而增加测试所需的时间。此外,置信水平的提高会导致统计功效下降。

统计功效

A/B 测试的统计功效是指检测到转化率之间存在一定量级实际差异的概率。由于转化事件具有随机性,因此可能存在这样的偶然性:即使两个选件之间的转化率存在实际差异,也不会发现具有统计意义的显著差异。此方案称为假负或II类错误。

统计功效往往会被忽略,因为与统计意义相比,统计功效并不是进行 A/B 测试所必需的。然而,如果忽略统计功效,则会因为样本量太小,而导致测试不能检测到不同选件转化率之间的实际差异。这会使测试更易于产生误报的结果。

最好设置较高的统计功效,这样测试识别到转化率之间实际差异的可能性较高,并减少漏报的产生。但是,需要更多的访客来提高检测任何给定提升的统计能力,这会增加进行测试所需的时间。

统计功效的常用值为 80%,这意味着测试有 80% 的概率可以检测到与能够可靠检测到的最小提升度相等的差异。该测试检测到更小提升度的概率较低,而检测到更大提升度的概率较高。

能够可靠检测到的最小提升度

大多数组织都想要测量转化率中的最小可能差异,因为即使只是小幅提升也值得实施。但是,如果您希望A/B测试具有检测小提升的高概率,则必须包含在测试中的访客数将极其庞大。 其原因是,如果转化率差异较小,则必须对两个转化率进行高精度估计以识别差异,这需要许多访客。 因此应根据业务需求,在检测到较小提升度和花费更长时间运行测试这两者之间进行权衡,来确定能够可靠检测到的最小提升度。

例如,假设两个选件(A 和 B)分别具有 10% 和 15% 的真正转化率。如果每个选件向 100 位访客显示,则由于转化的随机性,有 95% 的概率可观察到选件 A 的转化率范围为 4% 到 16%,观察到选件 B 的转化率范围为 8% 至 22%。这些范围在统计学中被称为置信区间。它们表示对估算转化率准确度的置信度。样本量越大(访客越多),您就可以越确信估算转化率的准确度。

下图显示了这些概率的分布情况。

由于两个范围之间的叠加部分较大,因此测试无法确定转化率是否有差异。因此,这个包含 100 位访客的测试无法区分这两种选件。然而,如果目标使优惠每个面向5,000个访客,则观察到的转化率有95%的可能分别在9%至11%和14%至16%的范围内。

在这种情况下,测试不太可能得出错误的结论,因此,5000名访客的测试可以区分两种优惠。 包含 5,000 名访客的测试的置信区间约为 +/- 1%。这意味着测试可以检测到约为 1% 的差异。因此,如果选件的实际转化率为 10% 和 10.5%,而不是 10% 和 15%,则需要更多的访客。

基准线转化率

基准线转化率是指控制选件(选件 A)的转化率。通常,您根据以前的体验已对选件的转化程度有所了解。如果情况并非如此,例如,因为这是一个新的选件或创意,则可以让测试运行一天左右,以便粗略估算可在样本量计算中使用的基准线转化率。

访客数量

要在长时间运行测试的机会成本与产生误报和漏报的风险之间达到平衡,是一件非常困难的事。显然,您不想做出错误的决定,但因遵守过于严格或苛刻的测试标准而陷于困扰也是不可取的。

作为一般指导原则,建议您使用 95% 的置信水平和 80% 的统计功效。

样本量计算器(上面提供的链接)需要您确定统计意义(建议:95%)和统计功效(建议:80%)。在输入基准线转化率和所有选件的每日流量之后,电子表格会输出检测到 1%、2%、5%、10%、15% 和 20% 提升度所需的访客数量,检测到这些提升度的概率等于为该测试指定的功效。电子表格还允许用户输入自定义的能够可靠检测到的最小提升度。此外,电子表格会根据用户输入的流量级别输出测试所需的周数。所需的周数将四舍五入到最接近的整周,以避免出现影响结果的周内效应。

在测试中可以确定的最小提升度和所需的访客数量之间存在一个权衡问题。下图显示了随着访客数量增加,收益大幅递减(该数据对基准线(控制)转化率为 5% 时有效)。在将最初的几位访客添加到测试中时,能够可靠检测到的最小提升度大大增加,但之后需要越来越多的访客来改进测试。该图表有助于在运行测试所需的时间(由所需访客数量和网站流量决定)与测试能够可靠检测到的最小提升度之间找到充分的权衡。

在此示例中,您可能会认为在 100 次测试中有 80 次能够检测到 5%(相当于替代选件具有 (100%+5%)5% = 5.25% 的转化率)的提升度便已足够,因此您需要每个选件的样本量为 100,000 位访客。如果该网站每天有 20,000 位访客,且您正在测试两个选件,则允许测试运行的时间应该为 2100,000/20,000 = 10 天,然后才能确定替代选件是否在统计上显著优于控制选件。

再次建议将所需的时间始终四舍五入至最接近的整周,以避免出现周内效应。因此在本例中,在评估结果之前,测试将会运行两周。

“每次访问带来的收入”量度

将“每次访问带来的收入”(RPV) 用作量度时,会增加额外的方差来源,因为 RPV 是每个订单带来的收入和转化率的乘积(RPV = 收入 / 访客量 =(每个订单带来的收入 * 订单量)/ 访客量 = 每个订单带来的收入 *(访客量 * CTR)/ 访客量 = 每个订单带来的收入 * CTR),每个都有自己的方差。转化率的差异可以直接使用数学模型进行估计,但每个订单的收入差异是特定于活动的。 因此,请使用过去活动中有关此差异的知识,或运行A/B测试几天,以估计收入差异。 差异是根据CSV下载文件中的“销售总和”、“销售总和平方”和“访客数”值计算的。 建立后,使用电子表格计算完成测试所需的时间。

样本量计算器(上文提供了链接)可帮助您配置 RPV 量度。打开计算器时,您会看到标签为RPV量度的选项卡。 使用计算器的 RPV 版本时,您需要以下信息:

  • 控制选件的访客数量

  • 控制选件的总收入

    确保已选择极限订单过滤器。

  • 控制选件的收入平方和

    请确保勾选了“极端订单”筛选器。

通常,将RPV用作度量需要20-30%的时间才能对相同级别的测量提升达到相同级别的统计置信度。 这是因为RPV在每次转换时都增加了不同订单大小的差异。 在选择直线转化率和RPV作为您最终业务决策依据的量度时,应考虑这一点。

比较多个优惠的校正

每次比较两个选件时,获得误报(即:即使转化率没有差异,也观察到具有统计意义的显著差异)的概率等于显著性水平。例如,如果有五个选件 A/B/C/D/E,A 是控制选件,且已经完成了四组比较(控制选件与 B,控制选件与 C,控制选件与 D,控制选件与 E);那么即使当置信水平为 95% 时,由于 Pr(至少一个误报)= 1 - Pr(无误报)= 1 - 0.95 = 18.5%,误报的概率也有 18.5%。在这种情况下,误报的定义为:报告的控制选件优于替代选件,或者报告的替代选件优于控制选件,但实际上它们之间没有区别。

结论

通过使用自动分配活动,Target可在两个或多个体验中识别入选方,并自动将更多流量重新分配给入选方,以在测试继续运行和学习的同时提高转化率。 自动分配简化了实现转化目标的过程,同时又免去了估算工作。

通过使用本文中引入的样本大小计算器(上面提供的链接)并允许测试按照它建议的时间运行,您可以确保您始终进行符合您认为适合特定测试的假正负率和假负率的高质量A/B测试。 这可确保您的测试具有一致性并能够可靠地检测到您要寻找的提升。

On this page

Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now