内容试验入门 get-started-experiment

什么是内容试验?

通过内容试验,您可以优化营销活动操作的内容。

试验是指于在线测试的背景下进行一组随机试验,这意味着一些随机选择的用户会接触到某个消息的给定变体,而另一组随机选择的用户则会接触到另一个变体。发送消息后,您可以对感兴趣的结果进行量度,例如电子邮件打开数或点击数。

为什么要运行试验?

通过试验,您可以确定造成量度有所提升的更改。如上图所示:一些随机选择的用户会接触到每个试验组,这意味着平均来看这些组将具有相同的特征。 因此,结果的任何差异都可以解释为是接收到的试验组不同所致,即,您能够在所做的更改与感兴趣的结果之间建立因果关系。

这使您能够在优化业务目标时做出由数据驱动的决策。

对于 Adobe Journey Optimizer 中的内容试验,您可以测试以下内容:

  • 主题行:主题行语调或个性化程度的变化会产生什么影响?
  • 消息内容:更改电子邮件的可视布局会导致对电子邮件的点击数增加吗?

内容试验的工作原理是什么? content-experiment-work

随机分配

在 Adobe Journey Optimizer 中进行内容试验时,会使用访客身份的伪随机哈希将目标受众中的用户随机分配至您定义的试验组。哈希机制可确保在访客多次进入同一营销活动时可以接收到相同的试验组。

更具体地说,MumurHash3 32 位算法用于将用户标识字符串哈希运算为 10,000 个存储段中的一个。在内容试验中,分配给每个试验组的流量各为 50% 意味着在存储段 1-5,000 中的用户将收到第一个试验组,而存储段 5,001-10,000 中的用户将收到第二个试验组。由于使用了伪随机哈希处理,因此您可能会发现访客并不是完全均等拆分;但是,拆分在统计上将等同于您的目标拆分百分比。

请注意,在通过内容试验配置每个营销活动时,您必须选择标识命名空间,从中将选择用户 ID 进行随机化演算。这独立于执行地址

数据收集和分析

在分配时(即,在出站渠道中发送消息时,或用户在入站渠道中进入营销活动时),“分配记录”将被记录到相应的系统数据集。这将记录用户被分配到的试验组,以及试验和营销活动标识符。

目标量度可分为两个主要类别:

  • 直接量度,即用户直接对打开电子邮件或单击链接等试验组做出的反应。
  • 间接或“漏斗底部”量度,在用户接触到试验组后发生。

对于 Adobe Journey Optimizer 跟踪消息的直接目标量度,最终用户的响应事件会自动使用营销活动和试验组标识符进行标记,从而允许将响应量度与试验组直接关联。 了解有关跟踪的更多信息

对于间接或“漏斗底部”目标(如购买),最终用户的响应事件不会使用营销活动和试验组标识符进行标记,即,在接触试验组后发生购买事件,该购买与先前的试验组分配没有直接关联。 对于这些量度,在以下情况下,Adobe 会将试验组与漏斗底部转化事件相关联:

  • 在分配和转化事件时,用户标识相同。
  • 转化在试验组分配后七天内发生。

然后,Adobe Journey Optimizer 会使用先进的“任意时间有效”统计方法来解释此原始报表数据,从而允许您解释试验报表。 有关详细信息,请参见此页面

运行试验的提示

运行试验时,请务必遵循某些最佳实践。 以下是运行这些试验时的一些提示:

隔离您尝试测试的变量

制定要测试的一些假设,并尽可能少地改动此假设,以确定对投放产生影响的因素。

例如,电子邮件主题行中的个性化是否有助于提高打开率,这就是一个好的假设。但是,如果在消息内容或图像中进行了其他更改,则可能会得出混淆性的结论。

确保您使用的量度正确

确定要定位的量度,以及您所做的更改是否会对此量度产生直接影响。

例如,更改消息正文的内容不太可能影响电子邮件打开率。

按照正确的受众规模或在足够长的时间内运行测试
如果运行测试的时间过长,则不同试验组之间能够检测到的目标量度差异会较小。 但是,如果目标量度的基线值较小,则需要较大的样本量。
试验中必须包含的用户数量取决于您希望检测到的效果大小、目标量度的变化程度或分布,以及您对假阳性和假阴性错误的容忍度。在经典试验中,您可以使用样本量计算器 来确定必须运行的测试时长。
了解统计不确定性
如果您正在运行的试验中有 1000 个用户看到一种试验组,并且转化率设置为 5%。如果已包含所有用户,那么这是否是实际的转化率? 真正的转化率是多少?
统计方法为我们提供了一种将这种不确定性形式化的方法。运行在线试验时要了解的最重要的概念之一是,观察到的转化率与一系列基本的真实转化率一致,这意味着您必须等到这些估计值足够精确时再尝试得出结论。置信区间和置信度有助于我们量化这种不确定性。
形成新的假设,并持续测试
要真正地洞悉业务,您应该坚持做同一个试验。相反,可以通过提出新的假设,在不同的受众中运行具有不同变动的新测试,检查对不同量度的影响来跟踪试验。

解释试验结果 interpret-results

本节介绍试验报告以及如何了解所呈现的各种统计量。

以下是解释内容试验结果的一些指南。

请注意,对结果的完整描述应考虑所有可用证据(即样本量、转化率、置信区间等),而不仅仅是能否得出结论。即使结果尚不具有结论性,仍然可能有令人信服的证据表明一个试验组与另一个试验组之间存在差异。

要了解统计计算,请参阅此页面

1. 比较标准化量度 normalized-metrics

在比较两个试验组的效果时,您应始终比较标准化的量度,将每个试验组所涉及用户档案数量的任何差异考虑在内。

例如,如果将试验目标设置为​ 唯一打开数,并且向 10,000 个用户档案显示了给定的试验组,其中记录了 200 个唯一打开数,这表示​ 转化率 ​为 2%。对于非唯一量度(例如“打开数”量度),标准化量度显示为​ 基于每个用户档案的计数,而对于价格总计等连续量度,则标准化量度将显示为​ 基于每个用户档案的总计

2. 关注置信区间 confidence-intervals

在用户档案的样本上进行试验时,观察到的给定试验组的转化率代表真实基础转化率的估计值。

例如,如果试验组 A 的​ 转化率 ​为 3%,而试验组 B 观察到的​ 转化率 ​为 2%,那么试验组 A 的表现比试验组 B 的更好吗?要回答这个问题,我们必须首先量化这些观察到的转化率中的不确定性。

置信区间有助于量化估计转化率中的不确定性水平,但较宽的置信区间意味着不确定性更大。随着试验中添加的用户档案越多,这些区间会变得越小,这代表估计更加精确。置信区间表示与观察数据兼容的转化率范围。

如果两个试验组的置信区间几乎不重叠,则意味着两个试验组的转化率不同。但是,如果两个试验组的置信区间之间存在大量重叠,那么两个试验组的转化率很可能相同。

Adobe 使用 95% 的“任意时间有效置信区间”或“置信序列”,这意味着在试验期间可以随时安全地查看结果。

3. 了解提升量 understand-lift

试验报告摘要显示​ 超过基线的提升量,这是衡量给定试验组转换率相对于基线的百分比增量的指标。精确地来说,它是给定试验组与基线之间的表现差异除以基线的表现所得出的百分比。

3. 了解置信度 understand-confidence

虽然您应该重点关注每个试验组表现的​ 置信区间,但 Adobe 还会显示置信度,置信度是一个用来度量有多少证据表明给定的试验组与基线试验组相同的概率指标。置信度越高,表明基线试验组和非基线试验组表现相同的假设越不成立。更准确地说,所显示的置信度是一种概率(以百分比表示),即如果实际中真实的基本转换率没有差异,我们会观察到给定试验组和基线之间的转换率差异较小。对于 p 值,显示的置信度为 1 - p 值。

Adobe 使用与上述置信序列一致的“任意时间有效”置信度和“任意时间有效”p 值。

4. 统计意义

运行试验时,如果假设给定的试验组和基线具有相同的真实基础转化率/表现,则极不可能观察到结果,该结果会被视为具有统计意义。

当置信度高于 95% 时,Adobe 认为试验具有结论性。

运行试验后要做什么

运行试验后,可以执行以下几个后续操作:

  • 部署成功的创意

    有了明确的结果,您可以部署这个成功的想法,方法是向所有客户推送最佳效果的试验组,或者创建新的营销活动并在其中复制最佳效果试验组的结构。

    请注意,在动态环境中,一次的良好表现并不意味着以后总能得到好的效果。

  • 运行跟踪测试

    有时,您的试验结果可能不具定论,要么是因为试验中没有足够的用户档案来检测试验组上的任何差异,要么是因为您定义的试验组没有显著的差异。

    如果您所测试的假设仍然相关,则可以对较大样本的受众或不同的受众进行后续测试,或者修改您的试验组以使差异更加明显,这些可能是最佳的后续行动。

  • 进行更深层次的深入分析

    对于一个受众效果较好的试验组,有时可能不一定对另一个受众奏效。对不同受众的试验组效果进行更深入的分析,有助于为新的测试创造思路。

    同样,使用不同量度研究每种试验组的表现也可以更全面地了解试验。

    note caution
    CAUTION
    更多分析意味着,检测虚假效果或假阳性的可能性更高。
recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76