文档 Journey Optimizer Journey Optimizer 指南

[旧版]{class="badge informative"}

个性化优化模型 personalized-optimization-model

最近更新： 2026年4月15日

适用对象：
Journey Orchestration

创建对象：

Experienced
User

TIP

决策是 Adobe Journey Optimizer 的全新决策功能，现已通过基于代码的体验和电子邮件渠道提供！了解有关Decisioning的更多信息

通过利用机器学习和深度学习中的先进技术，个性化优化可让业务用户（营销人员）定义业务目标并利用其客户数据培训面向业务的模型，以提供个性化优惠并最大化KPI。

与根据每个优惠的全局性能进行优化的非个性化排名不同，个性化优化学习单个客户的属性与最有可能为该客户推动所选KPI的优惠之间的关系。结果是为每个用户档案量身定制选件，而不是为每个用户档案提供单一的最佳选件。

个性化优化模型动画

用例和好处 use-cases

个性化优化非常适合于这样的决策方案：不同的客户对可用选件的响应会有所不同，并且选件目录会有显着的差异且不会经常更改。常见用例包括：

下一个最佳优惠选择：从多个竞争优惠或促销中实时选择要向每位客户展示哪一个。
内容个性化：通过Web、移动设备、电子邮件和其他渠道，为每个客户选择内容（如横幅、创意）或消息。
受众感知个性化：整合受众成员资格和上下文信号，以便推荐反映客户身份和交互的上下文。
收入和价值优化：除了单击次数和转化次数等二进制结果之外，还针对收入或客户存留期价值等连续结果进行优化。

主要优点：

通过提供每位客户最有可能响应的选件（而不是单个全局最佳选件），最大化您选择的业务KPI。
随着新的交互数据的到来而不断调整，在探索未充分测试的优惠与利用已验证的绩效者之间取得平衡。
支持二进制和连续优化量度，排名分数可直接在AI模型公式生成器表达式中使用。
通过自动学习适合客户的选件，减少A/B测试和规则创作的人工操作。

数据集要求 dataset

要训练个性化优化模型，数据集必须具有至少两个选件，且这些选件在过去30天内至少有250个显示事件（例如，展示次数）和一个成功事件（例如，点击或转化）。

少于250个显示事件和/或最近30天内没有成功事件的选件仍有资格包含在探索流量中。他们还有资格包含在个性化流量中，但将被视为等于决策中预测的得分最低选件，直到他们达到所需的最低显示/成功事件并且模型获得重新培训为止。

在首次训练个性化优化模型之前，利用个性化优化模型的选择策略中的选件将随机提供。

工作原理 how

该模型利用优惠信息、用户信息和情境信息之间的复杂特征交互，向最终用户推荐个性化优惠。特征是模型的输入。

有3种功能：

功能类型

如何向模型添加特征

决策对象(placementID、activityID、decisionScopeID)

发送到AEP的决策管理反馈体验事件的一部分

受众

在创建排名AI模型时，可以添加0-50个受众作为功能

上下文数据

发送到AEP的决策反馈体验事件的一部分。可添加到架构的可用上下文数据： Commerce详细信息、渠道详细信息、应用程序详细信息、Web详细信息、环境详细信息、设备详细信息、placeContext

该模型分为两个阶段：

在 离线模型训练 阶段，通过学习和记忆历史数据中的特征交互来训练模型。
在 在线推断 阶段，根据模型生成的实时得分对候选优惠进行排名。与传统协同过滤技术不同，个性化优化是一种基于深度学习的推荐方法，能够包含和学习复杂且非线性的特征交互模式。

除了二进制变量（例如点击次数和转化次数）之外，该模型还支持优化连续变量（例如收入和客户生命周期值）。二进制量度（例如点击次数）的预测值将始终介于0和1之间。连续量度（如订单值）的预测值将始终是大于或等于零的数字。排名得分会被标准化，以确保在公式或比较中使用时，跨两种量度类型保持一致的行为。

说明性示例 illustrative-example

二进制响应（转换） binary-response

考虑一个简化的用户和选件之间历史交互数据集。每一行记录所显示的优惠、两个客户信号 — 忠诚度级别（高= 1）以及客户是否打开了最近的电子邮件（是= 1） — 以及客户是否转换了（是= 1）。

对于选件A，如果两个信号一致（高或低），则转换的可能性更大。对于选件B，转化更有可能在电子邮件打开时发生，而不管忠诚度等级如何。基于学习到的模式，该模型可以根据每个客户的信号预测其更好的报价。

基于客户信号，对选件A和选件B进行二进制转换响应

图1：在突出显示的不匹配行中，当信号不一致且未转换时，显示选件A。根据学习到的模式，选件B将是该客户下次的最佳推荐。

这一方法的核心在于：学习和记住历史特征互动，并将其应用于为每个客户产生个性化的预测。

持续响应（收入） continuous-response

同样的观点也适用于连续结果。该模型不会预测客户是否转化，而是预测每个选件和客户区段的连续值（预期收入），并根据预测值对选件进行排名。

四个客户区段中两个优惠的预测收入

图2：四个客户区段中两个优惠的预测收入。对于打开了电子邮件的高忠诚度客户，优惠A有望带来最大收入；对于打开电子邮件的低忠诚度客户，优惠B是更强有力的选择。该模型会为每个区段选择具有最高预测值的选件，而不是对所有客户应用一个规则。

组合模型组件 ensemble

个性化优化以集成模型的形式提供 — 多个互补的模型臂一起运行，并且监督层决定每个臂接收多少实时流量。此设计使系统可以同时实现两个目标：了解哪些选件表现最佳（探索）并为已知表现良好的选件提供服务（利用）。

平衡勘探和开发

每个决策系统都面临着一个权衡：一方面要探索未充分测试的选件以收集信息，另一方面要利用经验证的选件以最大限度地提高即时回报。为探索保留太少的流量会导致无法发现高潜力的选件；为已运行的选件保留过多的牺牲提升。该组合通过保持最低勘探底线而自动地管理该平衡，同时随着时间推移将剩余通信量转移到性能更好的个性化臂。

该组合由四个交通武器组成：

均匀随机（探测臂） uniform-random

统一的随机分支从符合条件的优惠中随机将优惠分配给客户。由于它不支持任何优惠，因此它会在整个产品目录中生成有关客户如何回应的无偏见数据 — 这是个性化产品部门从中学习的原材料。在训练第一个模型之前，它是唯一活跃的手臂，之后它继续保持最小勘探地板，使系统继续学习。

初始化时：100%的流量。
在首次成功运行培训后：根据每个选件观察到的展示和转化事件数，至少5-20%的流量，最高可达85%。

神经网络（个性化臂） neural-network

神经网络是一种个性化分支，它根据特定客户的属性和受众成员资格来预测他们的最佳优惠。它学习选件、客户功能和上下文之间的复杂非线性交互，并非常适合捕获许多功能中的细微模式。

初始化时：0%的流量。
在首次成功运行培训后：至少5%的流量，最高85%。

上下文盗版（个性化分支） contextual-bandit

情境式Bandit是第二个个性化分支，它还可根据每位客户的受众成员资格来预测最佳选件，使用不断平衡学习和工作绩效的Bandit方法。与神经网络一起运行，使集成能够利用两种截然不同的个性化方法的优势。

初始化时：0%的流量。
在首次成功运行培训后：至少5%的流量，最高85%。

新的优惠增强器（非个性化arm） new-offer-booster

新的选件增强器是一个整体入选者Thompson Sampling bandit（非个性化），对新选件（模型回顾期间几乎没有记录印象事件的选件）的性能做出乐观假设。这给有希望的新产品提供了证明自己所需的早期曝光度，解决了众所周知的“冷启动”缺陷，即模型难以将足够的流量引导至新的或高性能但条件受限的优惠。

在收集真实展示和转化数据时，每个选件的估计性能会快速接近其真实基础性能，并且乐观假设的影响会降至接近零。
如果没有相对较新的优惠 — 例如，当所有优惠的印象数量都相近，或所有优惠的印象都超过1,000次时，乐观效应几乎为零，实际上，这支臂就像一个非个性化的整体入选者模型。
初始化时：0%的流量。
在首次成功运行培训后：5%的流量。

如何跨武器分配流量 traffic-allocation

在初始化时，还没有模型训练，因此100%的流量流向统一的随机基线，也就是唯一一个具有学习分布以从中取样的臂。在第一次成功训练运行后，每个臂接收最低流量下限(5%)，主管强盗根据观察到的性能分配剩余流量。随着模型连续轮次的列车，车辆会向性能最高的车辆收敛，最大可能分配为85%的车辆。

在连续训练轮次中跨四个组合臂的流量分配

图3：在初始化时跨越四个组合臂并跨越连续训练轮次的可能的流量分配轨迹。初始化时，所有通信量都流向随机基线。每次训练后，监督的汤普森抽样强盗将分配转移到性能更好的武器，同时保持至少5%的流量。实际分配将因观察到的臂性能而异。

主要模型假设及限制 key

为了最大化使用个性化优化的优势，需要注意一些关键的假设和限制。

优惠足够不同，因此用户所考虑的优惠之间会有不同的偏好。如果选件过于相似，则生成的模型产生的影响会较小，因为响应似乎是随机的。例如，如果银行提供两种信用卡选件，唯一的区别是颜色，那么推荐哪种信用卡可能无关紧要，但如果每张信用卡的条款不同，这便为某些客户为什么选择信用卡提供了理论基础，并为不同选件之间的差异提供了足够的依据，从而构建更具影响力的模型。
用户流量构成稳定。如果在模型训练和预测过程中用户流量组成发生剧烈变化，模型性能就会下降。例如，假设在模型训练阶段，只有受众A中的用户数据可用，但已训练模型用于生成受众B中的用户的预测，那么模型性能可能会受到影响。
选件性能在短时间内不会发生显着变化，因为该模型每周都会更新，并且性能更改会在模型更新时传递。例如，一种产品以前很流行，但是一份公开报告指出这种产品对我们的健康有害，而且这种产品很快就变得不受欢迎。在此场景中，模型可以继续预测该产品，直到模型随着用户行为的变化而更新。

冷启动问题 cold-start

当数据不足以提出建议时，就会出现冷启动问题。对于个性化优化，冷启动问题有四种类型。

创建没有历史数据的新AI模型后，选件将随机提供一段时间以收集所需数据，然后这些数据将用于训练第一个模型。
在发布第一个AI模型后，总流量的一部分将分配给均匀随机探索，其余部分用于模型推荐。基于选件数量及其性能阈值等因素，自动调整整个勘探和开发赌博机组件中的流量分布。
在将新优惠添加到与AI排名模型关联的策略中选择的优惠收藏集后，这些优惠随后将成为合格的候选人，以供统一随机模型和新优惠增强模型臂探索（在60分钟内）。在下次计划的重新训练运行中，选件的估计性能将在新的选件增强模型臂中更新，并且如果选件满足展示和点击阈值，则有资格包含在个性化模型臂中。
在将新配置文件添加到与与AI排名模型关联的选择策略关联的现有受众集后，它们将继承受众集本身的个性化属性。因此，他们将开始根据从开始使用的属性接收个性化优惠，而不会出现任何冷启动问题。

重新培训 re-training

模型将接受重新培训，以学习最新的功能交互，并每周缓解模型性能下降。

recommendation-more-help

journey-optimizer-help