自动分配概述

自动分配可在两个或更多体验中标识一个入选者,并在测试继续运行和学习期间,自动为入选者重新分配更多流量以提高转化。

While creating an A/B activity using the three-step guided workflow, you can choose the Auto-Allocate to best experience option.

面临的难题

标准 A/B 测试具有一定的固有成本。您必须花费流量来衡量每个体验的性能,并通过分析找出入选体验。即使在您认识到某些体验的性能优于其他体验之后,流量分配仍保持不变。此外,要算出样本量也很复杂,并且活动必须运行其整个过程,然后才能对入选者执行操作。在完成所有这些操作之后,确定的入选者仍可能不是真实入选者。

解决方案:自动分配

自动分配可降低确定入选体验的成本和开销。自动分配会监控所有体验的目标量度性能,并按比例将更多新参加者发送到高性能体验。同时,也会保留足够的流量来探索其他体验。即使活动仍在运行,您也可以看到该测试对结果带来的好处:优化与学习并行进行。

自动分配会逐渐将访客移到入选体验,而无需您等到活动结束才确定入选者。您可以更快地从提升度中受益,因为原本将被发送到不太成功的体验的活动参加者现在会看到潜在的入选体验。

Target 中的常规 A/B 测试只会显示挑战体验与控制体验的成对比较。例如,如果一项活动具有以下体验:A、B、C 和 D,其中 A 是控制体验,则常规的 Target A/B 测试会将 A 与 B、A 与 C 以及 A 与 D 进行比较。

在此类测试中,包括 Target 在内的大多数产品都使用 Student t 检验来生成基于 p 值的置信度。然后,使用该置信度值来确定挑战体验与控制体验之间是否存在足够的差异。但是,Target 不会自动执行查找“最佳”体验所需的隐式比较(B 与 C、B 与 D 以及 C 与 D)。因此,营销人员必须手动分析结果来确定“最佳”体验。

自动分配可执行各体验之间的隐式比较并得出“真实”入选者。测试中没有“控制”体验的概念。

自动分配会智能地为新访客分配体验,直到最佳体验的置信区间与任何其他体验的置信区间都不重叠为止。通常此过程可能会产生误报,但自动分配可使用基于 Bernstein 不等式的置信区间来抵消重复评估所产生的影响。从这一点来看,我们将会获得真实入选者。当自动分配停止时,如果访问页面的访客不存在实质性时间依赖关系,则自动分配至少有 95% 的可能性会返回如下体验:其真实响应最差比入选体验的真实响应少 1%(相对)。

自动分配与 A/B 或自动个性化均在何时使用

  • 如果您希望从一开始就优化活动并尽快确定入选体验,则使用​自动分配。通过更频繁地提供高性能体验,可以提高整体活动性能。
  • 如果您希望在优化网站之前鉴定所有体验的性能,则使用标准 A/B 测试。A/B 测试可以帮助您对所有体验进行排名,而自动流量分配可以找出性能最佳的体验,但不能保证区分性能较差的各个体验。
  • 如果您需要最复杂的优化算法(例如机器学习模型,该模型可以根据各个配置文件属性构建预测),则使用自动个性化。自动流量分配可查看体验的总体行为(与标准 A/B 测试类似),并且不区分访客。

主要优点

  • 保持 A/B 测试的严格性
  • 与手动 A/B 测试相比,能够更快地找到统计上显著的成功活动
  • 与手动 A/B 测试相比,能够实现更高的平均营销活动提升

术语

讨论自动分配时,以下术语将会很有用:

多臂老虎机:多臂老虎机优化方法可在探索性学习与对该学习的利用之间实现平衡。

算法的工作原理

自动分配背后的总体逻辑涉及测量的性能(如转化率)和累计数据的置信区间。与在各体验之间平均拆分流量的标准 A/B 测试不同,自动分配会更改各体验之间的流量分配。

  • 80% 的访客会使用下面所述的智能逻辑进行分配。
  • 20% 的访客会在所有体验中随机分配,以适应不断变化的访客行为。

多臂老虎机方法会留出一些体验以供探索,同时又会利用性能良好的体验。更多的新访客会被分配到性能较好的体验,同时又保持能够对不断变化的情况做出反应。这些模型每小时至少更新一次,以确保模型可对最新数据做出反应。

随着越来越多的访客进入活动,有些体验开始变得较为成功,并且更多的流量也会被发送到成功的体验。系统会继续随机提供 20% 的流量以探索所有体验。如果某个性能较差的体验性能开始提升,则会增加为该体验分配的流量。或者,如果高性能活动的成功率下降,则会减少为该体验分配的流量。例如,如果某个事件使访客在您的媒体网站上查找不同的信息,或者您的零售网站上的周末销售产生了不同的结果。

下图显示了算法如何在包含四个体验的测试中执行运算:

该图显示了在确定明确的入选者之前,分配给每个体验的流量在活动生命周期的几个轮次中是如何变化的。

轮次 描述
预热轮 预热轮 (0):在预热轮期间,每个体验均会分配同等的流量,直到活动中的每个体验都至少具有 1,000 位访客和 50 次转化为止。
  • 体验 A=25%
  • 体验 B=25%
  • 体验 C=25%
  • 体验 D=25%
在每个体验获得 1,000 位访客和 50 次转化后,Target 会开始自动分配流量。在这些轮次中会进行所有分配,且每轮会选取两个体验。
只有两个体验进入下一轮:D 和 C。
进入下一轮意味着这两个体验均等地分配了 80% 的流量,而另外两个体验会继续参与活动,但只有在新访客进入活动时,才会提供这两个体验,以用于随机分配 20% 的流量。
所有分配每小时更新一次(如上面 x 轴的轮次所示)。每轮结束后,会比较累计数据。
第 1 轮 第 1 轮:在本轮中,80% 的流量会分配给体验 C 和 D(各 40%)。20% 的流量会随机分配给体验 A、B、C 和 D(各 5%)。在本轮中,体验 A 展现良好性能。
  • 算法挑选出体验 D 进入下一轮,因为它具有最高的转化率(在每个活动的垂直比例尺上由 表示)。
  • 算法还挑选出体验 A 进入下一轮,因为在其余三个体验中,它具有最高的 Bernstein 95% 置信区间上限。
体验 D 和 A 进入下一轮。
第 2 轮 第 2 轮:在本轮中,80% 的流量会分配给体验 A 和 D(各 40%)。20% 的流量会随机分配,也就意味着 A、B、C 和 D 各获得 5% 的流量。在本轮中,体验 B 展现良好性能。
  • 算法挑选出体验 D 进入下一轮,因为它具有最高的转化率(在每个活动的垂直比例尺上由 表示)。
  • 算法还挑选出体验 B 进入下一轮,因为在其余三个体验中,它具有最高的 Bernstein 95% 置信区间上限。
体验 D 和 B 进入下一轮。
第 3 轮 第 3 轮:在本轮中,80% 的流量会分配给体验 B 和 D(各 40%)。20% 的流量会随机分配,也就意味着 A、B、C 和 D 各获得 5% 的流量。在本轮中,体验 D 继续展现良好性能,体验 C 的性能也不错。
  • 算法挑选出体验 D 进入下一轮,因为它具有最高的转化率(在每个活动的垂直比例尺上由 表示)。
  • 算法还挑选出体验 C 进入下一轮,因为在其余三个体验中,它具有最高的 Bernstein 95% 置信区间上限。
体验 D 和 C 进入下一轮。
第 4 轮 第 4 轮:在本轮中,80% 的流量会分配给体验 C 和 D(各 40%)。20% 的流量会随机分配,也就意味着 A、B、C 和 D 各获得 5% 的流量。在本轮中,体验 C 展现良好性能。
  • 算法挑选出体验 C 进入下一轮,因为它具有最高的转化率(在每个活动的垂直比例尺上由 表示)。
  • 算法还挑选出体验 D 进入下一轮,因为在其余三个体验中,它具有最高的 Bernstein 95% 置信区间上限。
体验 C 和 D 进入下一轮。
第 n 轮 第 n 轮:随着活动继续运行,高性能体验开始显现,并且此过程会一直持续到确定入选体验为止。如果具有最高转化率的体验的置信区间与任何其他体验的置信区间不重叠,则会将其标记为入选者,并会在](/docs/target/c-activities/automated-traffic-allocation/determine-winner.html?lang=zh-Hans)活动页面和活动列表中显示一枚徽章[。
  • 算法挑选出体验 C 作为明确的入选者
此时,算法会将 80% 的流量分配给体验 C,而将 20% 的流量继续随机分配给所有体验(A、B、C 和 D)。体验 C 总共获得 85% 的流量。如果入选者的置信区间再次开始重叠(这种情况不太可能出现),算法会重新执行上述第 4 轮的行为。
重要信息:如果您在该过程中提早手动选择入选者,则将容易选择错误的体验。因此,最好的做法是一直等到算法确定入选体验为止。
注意

If an activity has only two experiences, both experiences get equal traffic until Target finds a winning experience with 75% confidence. 届时,2/3的流量分配给获胜者,1/3的流量分配给失败者。 之后,当体验达到95%的置信度时,90%的流量分配给赢家,10%的流量分配给失败者。 我们总是保持一些流量被发送到“丢失”体验,以避免长期出现误报(即保持一些探索)。

After an Auto-Allocate activity is activated, the following operations from the UI are not allowed:

  • 将“流量分配”模式切换为“手动”
  • 更改目标量度类型
  • 更改“高级设置”面板中的选项

了解自动分配的工作原理

有关详细信息,请参 阅自动分配可以比手动测试提供更快的测试结果和更高的收入

注意事项

自动分配功能仅适用于一项高级量度设置:“递增计数并保持用户处于活动中”。

不支持以下高级量度设置:“递增计数、释放用户并允许再次进入”和“递增计数、释放用户并阻止再次进入”。

频繁回访的旧访客可能会夸大体验转化率。

如果查看体验 A 的访客经常回访并进行多次转化,则体验 A 的转化率 (CR) 会被人为地提高。体验 B 的访客进行了转化但不经常回访,若将体验 A 与体验 B 进行比较,结果会发现,A 的 CR 看起来比 B 的 CR 高,因此更可能将新访客分配给 A 而不是 B。如果您选择每位参加者计数一次,则 A 和 B 的 CR 可能会相同。

如果旧访客是随机分配的,他们对转化率的影响更可能趋于均匀化。要减轻这种影响,可考虑将目标量度的计数方法更改为每位参加者仅计数一次。

区分性能较高的体验,而不区分性能较低的体验。

自动分配善于区分性能较高的体验(并找到入选者)。可能有些时候,您并没有充分区分性能较差的体验。

如果您想要在所有体验之间生成在统计上显著的差异,则可能需要考虑使用手动流量分配模式。

时间相关(或上下文不同)的转化率可能会导致分配数量存在偏差。

在标准 A/B 测试期间可以忽略一些因素,因为它们会对所有体验产生均等的影响,但在自动分配测试中则不能忽略这些因素。算法易受观察到的转化率的影响。下面列举了一些对体验性能产生不均等影响的因素:

  • 具有不同上下文(时间、位置、性别等)相关性的体验。

    例如:

    • “狂热星期五”导致周五具有更高的转化率
    • “美好一周从星期一开始”导致周一具有更高的转化率
    • “迎接东海岸冬季的到来”会在东海岸或冬季严寒地区提供更高的转化率

由于 A/B 测试会分析较长时间段的结果,因此这可能会导致自动分配测试中的结果大于 A/B 测试中的结果。

  • 可能由于信息的紧迫性而导致转化发生不同延迟的体验。

    例如,“七折促销今天截止”表示访客今天要进行转化,但“首次购买五折优惠”并不会产生这种紧迫感。

常见问题解答

在使用自动分配活动时,请查 阅以下常见问题解答 :

目标分析(A4T)是否支持自动分配活动?

是. 有关详细信息,请 参阅目标分析(A4T)支持在创建活动时自动分配​活动

是否会自动将旧访客重新分配给高性能体验?

否. 只会自动分配新访客。旧访客会继续看到他们原来的体验。这保护了 A/B 测试的有效性。

算法如何处理误报?

如果您一直等到入选标记显示,则算法可保证 95% 的置信度或 5% 的误报率。

自动分配何时开始分配流量?

活动中的所有体验都至少具有 1,000 位访客和 50 次转化后,算法才开始工作。

算法的利用程度如何?

80% 的流量使用自动分配进行分配,20% 的流量进行随机分配。在确定入选者后,80% 的流量全都会分配给该体验,而 20% 的流量将继续分配给所有体验(包括入选体验)。

是否会显示落选体验?

是. 多臂老虎机方法可确保至少保留 20% 的流量用于在所有体验中探索不断变化的模式或转化率。

如果活动的转化延迟时间较长,会出现什么情况?

只要所有要优化的体验都面临相似的延迟,其行为便会与具有更快转化周期的活动相同,不过在流量分配过程开始之前达到 50 次转化阈值将需要更长的时间。

自动分配与自动个性化有何不同?

自动个性化使用每位访客的配置文件属性来确定最佳体验。这样做不仅可以优化活动,还可以为该用户提供个性化活动。

相比之下,自动分配是一种 A/B 测试,它可以产生总体的入选者(最受欢迎的体验,但不一定是对每位访客最有效的体验)。

旧访客是否会夸大成功量度的转化率?

目前的逻辑支持快速转化或较频繁访问的访客。这是因为此类访客会暂时夸大他们所属体验的整体转化率。算法会不断自行调整,因此每次生成快照时转化率的提高程度都会被放大。如果网站获得大量旧访客,他们的转化可能会夸大其所属体验的整体转化率。旧访客很有可能会随机分配,在这种情况下,总体影响(增加的提升)会趋于均匀化。要减轻这种影响,可考虑将成功量度的计数方法更改为每位参加者仅计数一次。

使用自动分配时,我能否使用样本量计算器来估算活动确定入选者将花费的时长?

You can use the existing sample size calculator to get an estimate of how long the test will run. (与传统A/B测试一样,如果测试的优惠多于两个或多个转换指标/假设验证,则应用Bonferroni校正。) 请注意,此计算器专为传统的固定水平A/B测试而设计,并且仅提供估计值。 使用“自动分配”活动的计算器是可选的,因为“自动分配”将为您声明入选方——您无需及时选取一个固定点来查看测试结果——提供的值在统计上始终有效。 在我们的实验中,我们发现了以下内容:

  • 在仅测试两个体验时,自动分配在体验之间的性能差异较大时比固定水平测试(即样本大小计算器建议的时间范围)更快地查找入选方,但在体验之间的性能差异较小时可能需要额外时间来确定获胜方。 在这些情况下,固定水平测试通常在没有统计显着结果的情况下结束。
  • 在测试两个以上的体验时,自动分配比固定水平测试(即示例大小计算器建议的时间范围)更快地找到优胜者,因为单个体验的性能严重超出所有其他体验。 如果两个或多个体验都与其他体验“相得益彰”,但彼此密切相关,则自动分配可能需要额外时间来确定哪个体验更优越。 在这些情况下,固定视线测试通常会以“成功”体验优于效果较差的体验而结束,但并没有确定哪个体验更出色。

我是否应从“自动分配”活动中删除效果不佳的体验以加快确定入选方的流程?

确实没有理由删除效果不佳的体验。 自动分配功能可以更频繁地提供高性能体验,也可以更少地提供效果不佳的体验。 在活动中留下表现不佳的体验不会显着影响确定入选方的速度。

20% 的访客将被随机分配给所有体验。体验不足时所提供的流量最少(20%除以体验数)。

我是否可以在自动分配活动的中途更改目标度量?

我们不建议您在活动中途更改目标量度。 虽然可以在使用UI的活动中更改目标量度, Target 但您应始终开始新活动。 如果您在活动中更改目标量度后,该量度运行,我们不担保会发生什么情况。

此建议适用于 自动分配、自 动目标、以及使 用或( A4T Target )作为报告源的 Analytics Automated Personalization活动。

在运行自动分配活动时,是否可以使用重置报告数据选项?

不建议 对自动 分配 活动使用重置报告 选项。 尽管它删除了可见的报告数据,但此选项并不会从自动分配模型 中删除所有培训 记录。 不要对自动 分配活动使用“重置报告数据”选项 ,请创建新活动并取消激活原始活动。 (注:本指南还适用于 自动目标 和 Automated Personalization 活动。)

“自动分配”构建模型如何与环境相关?

自动分配 (Auto-Allocate)仅根据默认环境记录的流量和转换行为构建模型。 默认情况 下 ,生产是默认环境 ,但可以在目标管理>环境中更改它。

如果在另一个(非默认)环境发生点击,则流量将根据默认环境中观察到的转换行为进行分配。 该点击的结果(转换或非转换)将记录为报告目的,但未在“自动分配”模 型中考虑 。

选择其他环境时,报表将显示该环境的流量和转换率。 报表的默认选定环境将始终为所选帐户范围的默认值。 默认环境不能按活动设置。

培训视频

以下视频包含有关本文中所讨论概念的详细信息。

活动工作流 - 定位 (2:14) 教程徽章

以下视频包含有关设置流量分配的信息。

  • 为活动分配受众
  • 增加或减少流量
  • 选择流量分配方法
  • 在不同的体验之间分配流量

创建A/B测试(8:36)教 程徽章

以下视频演示了如何使用 Target 三步引导式工作流创建 A/B 测试。对自动流量分配的讨论开始于 4:45。

  • 在 Adobe Target 中创建 A/B 活动
  • 使用手动拆分或自动流量分配来分配流量

在此页面上