派生数据集

派生数据集功能提供了一种便捷的方法,让您根据数据湖中可用的其他信息生成所选数据集。 这些数据集可以随时定期刷新,并可以选择发布到您的Real-Time Customer Profile数据中。 派生数据集解决了构建复杂数据集的需要,例如将十分位数、百分位数和四分位数构建为较简单的数据集(例如最大值、计数和平均值)。 这些数据集可以专门为个人用户或业务实体计算。 这样,您就可以派生可直接鉴定给某个标识符的数据集,如电子邮件地址、设备ID和电话号码,还可以派生与该用户或企业配置文件间接关联的数据集。

在数据湖上分析数据时,各种用例需要派生的数据集。 然后,可以将此数据标记为在Real-time Customer Profile中使用,并用于下游用例,如创建重点突出的受众。 此功能的一些潜在用例可能包括:

  • 根据各渠道的收视率确定最低10%的订阅者。 这将允许营销人员定位特定受众并销售新的订阅者包。
  • 根据飞行总里程确定处于飞行人数前10%的受众,并具有“飞行员”状态。 此受众可用于有选择地定向新信用卡选件的销售。
  • 根据订阅确定客户流失率。
  • 识别省或州中收入最高的1%家庭,并提供过去“n”个月离开集体群体的个人数量指标。

复杂派生数据集

要根据特定维度(类别)的一个或多个量度(例如收入、收视持续时间等)创建排名,需要复杂的派生数据集。 使用派生的数据集对数据进行排名时,十分位、四分位和百分位数允许具有灵活性和准确性。

十分位数是将一组排名数据拆分为10个相等部分的方法。 当数据被分成十等分时,将十等分等级分配给数据集中的每一行。 这允许数据按降序或升序排序。

十分位数按从最低到最高的顺序排列数据,并以1到10的刻度完成,其中每个连续数对应于10个百分点的增加。

十分位数桶表示排名组的数量,用于为数据集中的维度(类别)分配排名。 存储段可以是数字,也可以是表达式,其计算结果为每个分区的正整数值。 存储桶不得具有null值。

四分位数用于将分布除以四,百分位数除以100。

分析派生数据集

查询服务提供了内置功能,例如会话和最近联系等,您可以将这些功能应用于任何时间序列数据以生成与业务相关的派生数据集。 您可以选择将这些分析派生数据集基于一个或多个身份,并根据需要选择性地将数据发布到实时客户档案。

此类派生属性的某些潜在用例可能包括:

  • 跟踪用户会话期间扫描的缺货产品。
  • 跟踪热门量度,例如浏览或购买的产品的大小、颜色或产品类别。
  • 跟踪导致产品浏览或购买的平台来源。
  • 按身份跟踪最近浏览的项目。
  • 跟踪量度,例如购物车中的平均商品数、购物车放弃情况或平均购买频率。

其他派生数据集

您还可以将业务量度计算为派生属性,并将其与简单数据集(如邮政编码)或汇总量度(如总计数)结合使用。 例如,基于城市或省的总数,或基于业务类别和城市/省的总数。

后续步骤和用例

通过阅读本文档,您可以更好地了解查询服务派生的数据集如何促进复杂用例,以最大限度地提高数据的利用率。 接下来,您应该阅读基于十分位数的派生属性用例,以了解如何在现实场景中应用此功能。

recommendation-more-help
ccf2b369-4031-483f-af63-a93b5ae5e3fb