Catalog Service 概述

Catalog Service 是Adobe Experience Platform中数据位置和谱系的记录系统。虽然收录到Experience Platform中的所有数据都作为文件和目录存储在Data Lake中,但Catalog保留这些文件和目录的元数据和说明,以用于查找和监视。

简而言之,Catalog充当元数据存储或“目录”,您可以在Experience Platform中找到有关数据的信息。 可以使用Catalog回答以下问题:

  • 我的数据位于何处?
  • 处理这些数据的阶段是什么?
  • 哪些系统或进程对我的数据采取了行动?
  • 已成功处理多少数据?
  • 处理过程中发生了哪些错误?

Catalog 提供一个RESTful API,它允许您使用基本CRUD Platform 操作以编程方式管理元数据。有关详细信息,请参阅目录开发人员指南

Catalog 和服 Experience Platform 务

Catalog Service跟踪的资源由多个Experience Platform服务使用。 为了充分利用Catalog’s功能,建议您熟悉这些服务以及它们与Catalog的交互方式。

Experience Data Model (XDM)系统

Experience Data Model (XDM)系统是组织客户体验数据 Platform 的标准化框架。Experience Platform 利用XDM模式以一致、可重用的方式描述数据结构。

当数据被摄取到Platform中时,该数据的结构将映射到XDM模式并作为数据集的一部分存储在Data Lake中。 每个数据集的元数据由Catalog Service跟踪,其中包括对数据集所符合的XDM模式的引用。

有关XDM系统的更多一般信息,请参阅XDM系统概述

Data Ingestion

Experience Platform 从多个源中摄取数据,并将记录作为数据集保留在 Data Lake中。Catalog 跟踪这些数据集的元数据,而不管其来源或摄取方法。

使用批处理摄取方法时,Catalog还会跟踪批处理文件的其他元数据。 批量是由一个或多个要作为单个单位摄取的文件组成的数据单位。Catalog 跟踪这些批处理文件的元数据,以及它们在摄取后保留的数据集。批处理元数据包括有关成功摄取的记录数的信息,以及任何失败记录和关联的错误消息。

有关详细信息,请参阅数据摄取概述

Catalog 对象

如上节所述,Catalog跟踪其他Platform服务使用的几种资源和操作的元数据。 Catalog 维护其自己的“对象”存储,这些对象封装了此元数据。Catalog 对象是数据的可 Platform 查询表示形式,它允许您搜索、监视和标记数据,而无需访问数据本身。

下表概述了Catalog支持的不同对象类型:

对象 API端点 定义
帐户 /accounts 创建源连接时,必须提供身份验证凭据。 帐户表示用于创建特定类型连接的身份验证凭据的集合。 每个连接都有一组唯一参数,这些参数由Catalog保留,并在Azure Key Vault中加以保护。
/batches 批量是由一个或多个要作为单个单位摄取的文件组成的数据单位。Catalog中的批处理对象概述了批处理的摄取量度(如已处理的记录数或磁盘上的大小),还可能包括指向受批处理操作影响的数据集、视图和其他资源的链接。
Connection /connections 连接是源连接器的单个实例,对于您的组织是唯一的,并且使用连接器类型的适当身份验证凭据进行配置。
连接器 /connectors 连接器定义源连接如何从其他Adobe应用程序(如Adobe Analytics和Adobe Audience Manager)、第三方云存储源(如Azure Blob、Amazon S3、FTP服务器和SFTP服务器)以及第三方CRM系统(如Microsoft Dynamics和Salesforce)收集数据。
数据集 /dataSets 存储集是用于收集模式(通常是表)的和管理构造,其中包含数据(列)和字段(行)。 有关详细信息,请参阅数据集概述
数据集文件 /datasetFiles 数据集文件表示已保存在Platform上的数据块。 作为文本文件的记录,您可以在这些位置找到文件的大小、包含的记录数以及对摄取文件的批次的引用。

后续步骤

本文档介绍了Catalog Service及其在Experience Platform更大范围内的工作方式。 有关与该Catalog API的不同端点交互的步骤,请参阅Catalog 开发人员指南。 还建议您参阅筛选目录数据指南,以遵循限制API响应中返回数据的最佳实践。

在此页面上