提升度
下图显示了Target报表中的Lift和Confidence Interval of Lift。 数字表示提升度范围的平均值,箭头反映提升度是正还是负。 箭头以灰色显示,直到置信度超过95%。 置信度超过阈值后,箭头会根据提升度为正值或负值显示为绿色或红色。
体验 ν 和控制体验 ν0 之间的提升是转化率的相对“增量”,其定义为
倘个别兑换率定义见上文。 更简单地说,
Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control
如果控制体验 ν0 的转化率为0,则没有提升。
Confidence Interval of Lift
Average Lift and Confidence Interval列中的箱形图表示平均值和95% Confidence Interval of Lift。 当给定非控制体验的置信区间与控制体验的置信区间存在任何重叠时,箱形图呈灰色。 当给定体验的置信区间范围高于或低于控制体验的置信区间时,箱形图呈绿色或红色。
体验 ν 与控制体验 ν0 之间提升度的标准误差定义为:
那么提升度的95%置信区间为:
此计算使用“Delta”方法,并在本文档🔗中详细介绍了
Confidence
最后一列显示Target报表中的置信度。 在空假设为真的情况下,体验的置信度是获得极端结果的概率(用百分比表示),就像观察到的结果一样。 就p值而言,显示的置信度为 1 - p值。 直觉上,较高的置信度意味着控制体验和非控制体验具有相等转化率的可能性较小。
在Target中,在测试体验和控制体验之间执行双尾 Welch的t检验,以测试测试和控制体验的方法是否相同。 由于在运行试验之前,我们通常不知道两组样本的大小和差异是否相同,并且Target还允许您向每个体验发送不相等的流量百分比,因此我们不假设每个体验的差异是相等的。 因此,韦尔奇的t检验被选作学生的t检验。
为进行Welch的t检验,首先计算t统计量和自由度,然后进行双尾t检验以生成p值。 最后,根据p值计算置信度。
将 t 统计量定义为任意两个独立随机变量 ν 和 ν0 的均数除以差值的标准误差:
其中 μv 和 μv0 分别为 ν 和 ν0 的均值,并给出 μv 和 μv0 之间差值的标准误差:
其中 σ2v 和 σ2v0 是两个体验 ν 和 ν0 的变差,Nv 和 Nv0 分别是 ν 和 ν0 的样本大小。
对于Welch的t检验,自由度计算如下:
ν 和 ν0 的自由度定义为:
然后,可以从 t — 分布尾部的区域计算p值:
最后,Target中报告的置信度定义为:
脱机执行计算
下载的 CSV 报表仅包含原始数据,而不包含计算量度,如 A/B 测试中使用的每位访客带来的收入、提升度或置信度。
要计算这些统计量,请下载Target 完整置信度计算器 Excel文件以输入活动的值。