自动优化模型 auto-optimization-model
Adobe Journey Optimizer的自动优化模型是一种增强学习模型,通过浏览所有选件(或内容)来最大化选件点进率(CTR),然后在应用资格规则和频率限制后,根据预测的CTR对项目进行排名。
用例和好处 use-cases-benefits
自动优化可用于您想要快速轻松设置、想要查找总体入选选选件以及想要在单个渠道中最大限度地提高选件点击量的任何时间。 例如:
- 选择要在网页上插入的最佳选件以最大化选件点击次数。
- 选择要插入到电子邮件中的最佳选件,以最大化选件点击次数。
- 选择要插入到移动设备应用程序屏幕中的最佳选件,以最大化选件单击次数。
在以下情况下,自动优化是一个不错的选择:
- 选件会随时间变化或频繁变化:自动优化模型每六小时重新训练一次。
要求和限制 requirements-limitations
自动优化具有以下要求和限制:
要训练自动优化模型,数据集必须满足以下最低要求:
- 数据集中的至少2个选件在过去14天内必须具有至少100个显示事件和5个点击事件。
- 少于100个显示和/或最近14天内有5个点击事件的选件将被模型视为新选件,并且仅有资格由Exploration Bandit提供服务。
- 如果选件具有超过100个显示内容以及最近14天内的5次点击事件,则模型会将它们视为现有选件,并且同时符合由勘探和开发土匪提供的条件。
在首次训练自动优化模型之前,利用自动优化模型的选择策略中的选件将随机提供。
平衡优化与学习 balancing-optimization-learning
自动优化是一种增强学习模型,它根据实际客户行为学习优惠的点进性能。 强化学习模型旨在通过选择预测效果更好的行为来最大化目标。 但是,始终向每位客户提供具有最佳预测结果的项目的模型永远不会了解随时间引入的新项目的性能(所谓的“冷启动问题”),也不会了解由于客户行为随时间变化而导致的其他现有项目的性能变化。 因此,强化学习模型必须管理通常称为探索 — 利用权衡,即优化与学习之间的平衡。
自动优化使用称为多臂老虎机的常用方法管理权衡。 多臂老虎机根据以下因素做出排名决定:
- 每个项目的预测点进率
- 每个项目的预测点进率的差异
- 模型对于每个项目的预测的不确定程度。
多臂匪徒利用这一信息以及随机变化来选择要采取的行动。 自动优化是一个集成算法,它包含多个多臂强盗,以确保充分挖掘所有选件,同时最大化整体性能。
在对排名请求做出回应时,“监督”多臂老虎机首先会做出选择,决定该请求是偏向勘探还是偏向开发。 这个决定是使用“epsilon-greedy”方法做出的。
第二层排名由两个汤普森采样绑定时执行:
- 10%的流量会分配给一个以探索为重点的赌博网站,该网站更可能推荐新选件或数据有限的网站,前提是该模型将受益于进一步了解客户对这些选件的响应行为。
- 90%的流量会分配给以开发为中心的老虎机,该老虎机更有可能随着时间的推移始终推荐高性能选件,其前提是新的或低数据选件在得到证明之前更有可能性能不佳。
从技术意义上说,这些假设是先验概率分布的参数,也称为先验分布。 随着优惠收集更多的展示和点击数据,所选优先项的影响将变得更小,两个盗贼所做的预测往往会随着时间的推移而收敛。
我们组合多个盗贼并分配一些专用流量进行勘探的方法具有以下几个好处:
- 该模型可最快速地了解具有最少数据的最新选件
- 该模型将继续了解所有选件并响应客户行为随时间的变化
- 该模型并不过分偏爱表现分数较高的选件,但很少观察到;或者积极偏爱表现分数较低的选件,但很少观察到
- 该模型能够稳健地处理具有稀疏点击数据且历史数据非常不同的数百个选件的流量分配决策
汤普森采样 thompson-sampling
Thompson采样,即贝叶斯bandits,是多臂老虎机问题的贝叶斯方法。 该模型将每个优惠的平均奖励𝛍视为随机变量,并使用我们迄今为止收集的数据来更新我们关于平均奖励的“信念”。 这一“信念”用后验概率分布数学表示 — 本质上是平均奖励的取值范围,以及奖励对每个报价都具有该值的可能性(或概率)。 然后,对于每个决策,我们将从每个后奖励分配中取样一个分数,并选择取样奖励值最高的优惠。
下图说明了此过程,我们有3种不同的选件。 起初,我们没有从数据中得到任何证据,我们假设所有报价都具有统一的后验报酬分布。 我们从每个优惠的后验奖励分布中抽取一个样本。 从选件2的分布中选择的示例具有最高值。 这是一个探索的例子。 显示选件2后,我们收集任何潜在奖励(例如转化/无转化),并使用贝叶斯定理更新选件2的后验分布,如下所述。 我们继续此过程,并在每次显示优惠并收集奖励时更新后验分布。 在第二个数字中,选中的选件3 — 尽管选件1的平均奖励最高(其后验奖励分布最靠右),但是从每个分布中抽样过程导致我们选择了一个明显次优的选件3。 通过这样做,我们为自己提供了进一步了解Offer 3真实奖励分配情况的机会。
当收集到更多的样本时,置信度增加,并且获得对可能的奖励的更准确的估计(对应于更窄的奖励分布)。 当有更多的证据可用时,更新我们信念的过程称为贝叶斯推断。
最终,如果一个选件(例如选件1)是明确的入选者,则其后奖励分配将与其他选件分开。 此时,对于每个决策,从选件1中抽样得到的奖励可能是最高的,我们将以更高的概率来选择它。 这就是剥削 — 我们坚信,优惠1是最好的,因此我们选择它是为了获得最大回报。
图1: 对于每个决策,我们从后验奖励分布中取样一个点。 将选择具有最高样本值(转化率)的选件。 在初始阶段,所有选件均具有均匀分布,因为我们没有任何证据表明来自数据的选件转换率。 随着样本量的增加,后验分布越来越窄,精度也越来越高。 最终,每次都会选择转换率最高的选件。
为了计算/更新分布,我们使用贝叶斯定理。 对于每个选件i,我们要计算其P(𝛍i |数据),即对于每个选件i,考虑到我们到目前为止已收集的有关该选件的数据,奖励值 𝛍i 的可能性有多大。
根据贝叶斯定理:
后验概率=概率前验概率*
previous概率是对产生输出的概率的初始猜测。 在收集了一些证据之后,该概率称为后验概率。
自动优化旨在考虑二进制奖励(单击/不单击)。 在这种情况下,可能性表示来自N个试验的成功数,并且由二项式分布建模。 对于某些似然函数,如果您选择某个先验分布,则后验分布与先验分布相同。 这样的前置任务称为共轭前置。 这种先验使后验分布的计算变得非常简单。 Beta分布是二项式似然之前的共轭分布,因此对于先验和后验概率分布来说是一种方便而合理的选择。 Beta分布采用两个参数 α 和β。 这些参数可以看作是成功和失败的计数,其平均值由以下公式给出:
如上所述的Likelihood函数由二项式分布建模,具有s成功(转化)和f失败(无转化),而q是具有Beta分布的随机变量。
验前分布采用Beta分布建模,验后分布采用以下形式:
勘探偏误和开采偏误 exploration-exploitation-bias
必须为参数α,β选择初始值。 自动优化包括勘探偏向的Thompson采样Bandit和勘探偏向的Thompson采样Bandit,它们在Beta分布中使用不同的初始α、β前标。
在一般的Thompson抽样方法中,只须将成功和失败数加到现有参数α,β中即可计算后验数。 自动优化针对新的成功和失败使用不同的加权因子来修改新数据与先前数据在勘探偏差和开采偏差的带宽中的影响。
引用 references
有关汤普森采样盗贼的更深入探讨,请参阅以下研究论文: