数据集概述
所有成功引入Adobe Experience Platform的数据将作为数据集保留在Data Lake中。 数据集是用于数据集合的存储和管理结构,通常是表格,其中包含架构(列)和字段(行)。数据集还包含描述其存储的数据的各个方面的元数据。
本文档提供了Experience Platform中数据集的高级概述。
创建数据集和跟踪元数据
Catalog Service是Experience Platform中数据位置和族系的记录系统,用于创建和管理数据集。 Catalog跟踪每个数据集的元数据,其中包括对数据集所符合Experience Data Model (XDM)架构的引用(下一节中有说明)以及摄取到该数据集的记录数。
有关详细信息,请参阅目录服务概述。
对数据集数据实施约束
Experience Data Model (XDM)是Platform用于组织客户体验数据的标准化框架。 摄取到Platform中的所有数据必须符合预定义的XDM架构,然后才能作为数据集保留在Data Lake中。
所有数据集都包含对XDM架构的引用,该引用会限制它们可以存储的数据的格式和结构。 尝试将数据上传到不符合数据集的XDM架构的数据集会导致摄取失败。
有关XDM的更多信息,请参阅XDM系统概述。
将数据引入数据集
Adobe Experience Platform Data Ingestion表示Platform从各种来源摄取数据的多种方法。 无论采用何种摄取方法,所有成功摄取的数据都会转换为批处理文件。 批量是由一个或多个要作为单个单位摄取的文件组成的数据单位。 然后,将这些批处理文件添加到专用数据集并保留在Data Lake中。
有关详细信息,请参阅数据引入概述。
应用于架构中数据集的标签
Adobe Experience Platform数据管理允许您管理客户数据,以确保遵守适用于数据使用的法规、限制和策略。 数据管理框架允许您应用使用标签,以根据应用于数据的使用策略对数据进行分类。 标签可应用于单个架构、这些架构中的字段以及整个单个数据集。 当标签直接应用于架构时,这些标签会传播到基于该架构的所有现有和未来数据集。
有关该服务的更多信息,请参阅数据管理概述。 有关如何使用Platform中的使用标签的步骤,请参阅以下指南:
下游Platform服务中的数据集
数据集一旦用于存储提取的数据,下游Platform服务就会使用这些数据集更新客户配置文件,通过机器学习获取洞察信息,等等。
以下是下游服务的列表,这些服务使用数据集进行各种操作。 请查看每项服务的文档以了解更多信息。
- Data Access API:允许您访问和下载存储在数据集中的文件的内容。
- Adobe Experience Platform Identity服务:跨设备和系统桥接身份,根据数据集所遵循的XDM架构定义的身份字段将数据集链接在一起。
- Real-Time Customer Profile:利用Identity Service从您的数据集实时创建详细的客户配置文件。 Real-Time Customer Profile从Data Lake中提取数据并将客户配置文件保留在其自己的单独数据存储中。
- Adobe Experience Platform分段服务:允许您根据Real-Time Customer Profile数据构建区段并生成受众。 然后,可以将这些受众导出到Data Lake中他们自己的数据集。
- Adobe Experience Platform Data Science Workspace:使用机器学习和人工智能发掘大型数据集中的见解。
- Adobe Experience Platform查询服务:允许您使用标准SQL查询Experience Platform中的数据,加入Data Lake内的任何数据集,并将查询结果捕获为新的数据集,以用于报表、Data Science Workspace或Real-Time Customer Profile。
- Adobe Experience Platform目标服务:允许您将数据集导出到所需的云存储或电子邮件营销目标,以用于报表或数据科学活动。
后续步骤
通过阅读本文档,您已了解Experience Platform中数据集的核心用途,以及使用数据集的各种Platform服务。 有关Platform中使用数据集的多种方式的更多详细信息,请查看本概述中链接的服务文档。
有关如何与Experience Platform UI中的数据集交互的步骤,请参阅数据集用户指南。