成功 A/B测试 中的活动 Adobe Target 需要足够的访客(样本量)来提高转化率。 您如何知道A/B测试运行的时长? 本文包含有关 自动分配 活动和 Adobe Target 样本量计算器,可帮助您确保活动拥有足够的访客来实现您的目标。
如果在活动的前几天中,就有一个选件的表现大大优于或弱于其他选件,那么很有可能在此时即停止活动。但是,当观察数量较低时,很有可能只是偶然观察到正或负的提升,因为转化率只是少数访客的平均值。随着活动收集的数据点越来越多,转化率会逐渐靠近真正的长期值。
在执行A/B测试时,过早停止活动是您可能会遇到的十大隐患之一。 有关更多信息,请参阅 A/B测试常见的十个隐患以及如何避免它们.
Adobe Target 提供了一些工具,可帮助确保您的活动具有足够的样本量来实现转化目标:自动分配。
An 自动分配 活动是一种A/B测试,用于在两个或更多体验中标识入选者。 自动分配测试会在测试继续运行和学习期间,自动为入选者重新分配更多流量以提高转化。
标准 A/B 测试具有一定的固有成本。您必须花费流量来衡量每个体验的性能,并通过分析找出入选体验。即使在您认识到某些体验的性能优于其他体验之后,流量分配仍保持不变。此外,要算出样本量也很复杂,并且活动必须运行其整个过程,然后才能对入选者执行操作。而且确定的赢家仍有可能不是真正的赢家。
解决方案是 自动分配. 自动分配可降低确定入选体验的成本和开销。自动分配会监控所有体验的目标量度性能,并按比例将更多新参加者发送到高性能体验。同时,也会保留足够的流量来探索其他体验。即使活动仍在运行,您也可以从结果中看到该活动的好处:优化与学习同时进行。
自动分配会逐渐将访客移到入选体验,而无需您等到活动结束才确定入选者。您可以更快地从提升度中受益,因为原本将被发送到不太成功的体验的活动参加者现在会看到潜在的入选体验。
使用自动分配功能时,Adobe Target 会在活动页面的顶部显示一个标记,在活动达到最低转化次数,且具有足够的置信度之前,该标记会一直指示“还没有入选者”。Target然后, 会通过在活动页面顶部显示一个徽章来确定入选体验。
有关更多信息,请参阅 自动分配概述.
如果您选择使用手动 A/B测试 活动,而不是 自动分配,则 Target 样本量计算器可帮助您确定测试取得成功所需的样本量。 手动A/B测试属于固定时域测试,因此该计算器非常有用。 将计算器用于 自动分配 活动是可选的,因为 自动分配 为您宣布入选者。 计算器会提供所需样本量的粗略估计。 继续阅读可了解有关如何使用计算器的更多信息。
在设置A/B测试之前,请访问 Adobe Target 样本量计算器.
在执行任何A/B测试之前确定适当的样本大小(访客数)非常重要,以便确定在评估结果之前活动应运行的时间。 在达到统计显着性之前简单地监控该活动会导致置信区间被大大低估,从而使测试不可靠。 此结果的依据是,如果检测到具有统计意义的结果,则停止测试并确定入选者。但是,如果结果不具有统计意义,则允许测试继续。此过程非常容易产生正面的结果,这会增加误报率,并因此扭曲测试的有效显著性水平。
这可能会导致许多误报,从而导致最终未提供预测提升度的选件的实施。 提升度本身很差是一个令人不快的结果,但更严重的后果是,随着时间的推移,无法准确预测提升度会削弱组织对测试作为一种实践的信任。
本文讨论了确定样本量时必须平衡的因素,并介绍了一种计算器,用于估计一个适当的样本量。 在任何A/B测试开始之前,使用样本量计算器(上面提供的链接)计算样本量,可以确保始终运行符合统计标准的高质量A/B测试。
有五个用户定义的参数可以对 A/B 测试进行定义。这些参数是相互关联的,因此,当已确定其中的四个参数时,便可以计算出第五个参数:
要获得准确的结果,必须在更改任何参数编号之前重新加载页面。 每次更改参数号时都重复此过程。
对于 A/B 测试,由分析人员设置统计意义、统计功效、能够可靠检测到的最小提升度和基准线转化率,然后根据这些数字计算所需的访客数量。本文讨论这些元素,并提供有关如何为特定测试确定这些量度的准则。
下图说明了 A/B 测试可能出现的四种结果:
最好不要出现误报或漏报。然而,统计测试永远无法保证获得零误报。 始终存在这种可能的情况:观察到的趋势并不代表潜在的转化率。例如,在测试中,看看抛硬币时正面或反面的可能性是否更大,即使使用一枚公平的硬币,你也可以偶然得到10次正面投掷的十次正面投掷的结果。 统计意义和功效可帮助我们量化误报和漏报率,并使我们能够在给定测试中将它们保持在合理水平。
测试的显着性水平决定了测试报告两个不同选件之间的转化率存在显着差异的可能性,但实际上并没有真正的差异。 这种情况称为误报或I型错误。 显着性级别是用户指定的阈值,是在误报容差和必须包含在测试中的访客数量之间进行权衡。
在 A/B 测试中,最开始假设两种选件均具有相同的转化率。然后根据这个假设计算观察到的结果的概率。如果此概率(p值)小于某个预定义阈值(显着性水平), Target 结论是,初始假设(两个选件具有相同的转化率)不正确。 因此,A和B的转化率在给定的显着性水平上有统计学差异。
A/B 测试中常用的显著性水平是 5%,这与 95% 的置信水平相对应(置信度 = 100% - 显著性水平)。95% 的置信水平意味着每次进行测试时,即使选件之间实际没有差异,也有 5% 的概率检测到具有统计意义的提升度。
下表总结了对置信水平的一般性解释:
置信水平 | 解释 |
---|---|
< 90% | 没有证据表明转化率存在差异 |
90-95% | 没有充分的证据表明转化率存在差异 |
95-99% | 有比较充分的证据表明转化率存在差异 |
99-99.9% | 具有可靠的证据表明转化率存在差异 |
+99.9% | 具有强有力的证据表明转化率存在差异 |
建议始终使用 95% 或更高的置信水平。
最好使用最高的置信水平,以便测试产生很少的误报。 然而,置信水平越高,所需的访客数量就越多,从而增加测试所需的时间。此外,置信水平的提高会导致统计功效下降。
A/B 测试的统计功效是指检测到转化率之间存在一定量级实际差异的概率。由于转化事件具有随机性,因此可能存在这样的偶然性:即使两个选件之间的转化率存在实际差异,也不会发现具有统计意义的显著差异。这种情况称为误报或类型II错误。
统计功效往往会被忽略,因为与统计意义相比,统计功效并不是进行 A/B 测试所必需的。然而,如果忽略统计功效,则会因为样本量太小,而导致测试不能检测到不同选件转化率之间的实际差异。这会使测试更易于产生误报的结果。
最好设置较高的统计功效,这样测试识别到转化率之间实际差异的可能性较高,并减少漏报的产生。但是,需要更多访客才能提高检测任何给定提升的统计能力,从而增加测试所需的时间。
统计功效的常用值为 80%,这意味着测试有 80% 的概率可以检测到与能够可靠检测到的最小提升度相等的差异。该测试检测到更小提升度的概率较低,而检测到更大提升度的概率较高。
大多数组织都想要测量转化率中的最小可能差异,因为即使只是小幅提升也值得实施。但是,如果您希望A/B测试有很高的概率检测到较小提升,则必须包含在测试中的访客数量将会大得惊人。 其原因在于,如果转化率差异很小,则必须高准确度地估计这两个转化率来识别差异,这需要许多访客。 因此应根据业务需求,在检测到较小提升度和花费更长时间运行测试这两者之间进行权衡,来确定能够可靠检测到的最小提升度。
例如,假设两个选件(A 和 B)分别具有 10% 和 15% 的真正转化率。如果每个选件向 100 位访客显示,则由于转化的随机性,有 95% 的概率可观察到选件 A 的转化率范围为 4% 到 16%,观察到选件 B 的转化率范围为 8% 至 22%。这些范围在统计学中被称为置信区间。它们表示对估算转化率准确度的置信度。样本量越大(访客越多),您就可以越确信估算转化率的准确度。
下图显示了这些概率的分布情况。
由于两个范围之间的叠加部分较大,因此测试无法确定转化率是否有差异。因此,这个包含 100 位访客的测试无法区分这两种选件。但是,如果Target向5,000位访客分别公开这些选件,则观察到的转化率有95%的机会分别落在9%到11%和14%到16%的范围内。
在这种情况下,测试不太可能得出错误的结论,因此,对5000名访客进行的测试可以区分这两种选件。 包含 5,000 名访客的测试的置信区间约为 +/- 1%。这意味着测试可以检测到约为 1% 的差异。因此,如果选件的实际转化率为 10% 和 10.5%,而不是 10% 和 15%,则需要更多的访客。
基准线转化率是指控制选件(选件 A)的转化率。通常,您根据以前的体验已对选件的转化程度有所了解。如果情况并非如此,例如,因为这是一个新的选件或创意,则可以让测试运行一天左右,以便粗略估算可在样本量计算中使用的基准线转化率。
要在长时间运行测试的机会成本与产生误报和漏报的风险之间达到平衡,是一件非常困难的事。显然,您不想做出错误的决定,但因遵守过于严格或苛刻的测试标准而陷于困扰也是不可取的。
作为一般指导原则,建议您使用 95% 的置信水平和 80% 的统计功效。
样本量计算器(上面提供的链接)需要您确定统计意义(建议:95%)和统计功效(建议:80%)。在输入基准线转化率和所有选件的每日流量之后,电子表格会输出检测到 1%、2%、5%、10%、15% 和 20% 提升度所需的访客数量,检测到这些提升度的概率等于为该测试指定的功效。电子表格还允许用户输入自定义的能够可靠检测到的最小提升度。此外,电子表格会根据用户输入的流量级别输出测试所需的周数。所需的周数将四舍五入到最接近的整周,以避免出现影响结果的周内效应。
在测试中可以确定的最小提升度和所需的访客数量之间存在一个权衡问题。下图显示了随着访客数量增加,收益大幅递减(该数据对基准线(控制)转化率为 5% 时有效)。在将最初的几位访客添加到测试中时,能够可靠检测到的最小提升度大大增加,但之后需要越来越多的访客来改进测试。该图表有助于在运行测试所需的时间(由所需访客数量和网站流量决定)与测试能够可靠检测到的最小提升度之间找到充分的权衡。
在此示例中,您可能决定能够检测到5%的提升(对应于替代选件的转化率(100%+5%)*5% = 5.25%),在100次测试中有80次足以满足需求,因此您需要每个选件的样本量为100,000位访客。 如果网站每天有20,000位访客,并且您正在测试两个选件,则应该允许测试运行为2个*100,000/20,000 = 10天后才能确定替代选件在统计上是否显着优于控制选件。
再次建议将所需的时间始终四舍五入至最接近的整周,以避免出现周内效应。因此在本例中,在评估结果之前,测试将会运行两周。
将每次访问收入(RPV)用作量度时,会添加额外的差异来源,因为RPV是每订单收入和转化率(RPV =收入/#visitors = (每订单收入)的乘积 * #orders) / #个访客=每订单收入 * (#visitors * CTR) / #visitors =每订单收入 * CTR),每个变量都有其自己的方差。 兑换率的方差可使用数学模型直接估计,但每订单收入的方差特定于活动。 因此,可使用来自过去活动的此差异知识或运行A/B测试几天来估计收入差异。 差异是根据在CSV下载文件中找到的销售额总和、销售额平方和以及访客数的值计算的。 建立之后,使用电子表格计算完成测试所需的时间。
样本量计算器(上文提供了链接)可帮助您配置 RPV 量度。打开计算器时,您会看到一个标签为 RPV量度. 使用计算器的 RPV 版本时,您需要以下信息:
控制选件的访客数量
控制选件的总收入
确保选择极端顺序筛选器。
控制选件的收入平方和
请确保勾选了“极端订单”筛选器。
一般而言,将RPV用作量度需要20-30%的时间才能在测量到的提升度达到相同水平的统计置信度。 这是因为RPV具有每个转化中不同订单大小的附加方差。 在作为最终业务决策基础的指标时,应在直接转化率和RPV之间进行选择。
每次比较两个选件时,获得误报(即:即使转化率没有差异,也观察到具有统计意义的显著差异)的概率等于显著性水平。例如,如果有五个选件 A/B/C/D/E,A 是控制选件,且已经完成了四组比较(控制选件与 B,控制选件与 C,控制选件与 D,控制选件与 E);那么即使当置信水平为 95% 时,由于 Pr(至少一个误报)= 1 - Pr(无误报)= 1 - 0.95 = 18.5%,误报的概率也有 18.5%。在这种情况下,误报的定义为:报告的控制选件优于替代选件,或者报告的替代选件优于控制选件,但实际上它们之间没有区别。
通过使用 自动分配 活动, Target 在两个或更多体验中标识一个入选者,并在测试继续运行和学习期间,自动为入选者重新分配更多流量以提高转化。 自动分配简化了实现转化目标的过程,同时又免去了估算工作。
通过使用本文中介绍的样本量计算器(上面提供的链接)并允许测试在它建议的时间内运行,您可以确保始终执行符合您确定的假阳性和假阴性率的高质量A/B测试,这些率对于特定测试来说足够。 这可确保您的测试具有一致性并能够可靠地检测到您要寻找的提升。