导出数据集

本文概述如何使用Customer Journey Analytics Export datasets实现以下数据导出用例

  • 数据备份

简介

使用Experience Platform Export datasets导出数据允许您将数据从Customer Journey Analytics数据视图导出到任何云存储目标。

BI扩展

更多信息

您可以将原始数据集从Experience Platform中的数据湖导出到云存储目标。 此导出位于称为“Experience Platform导出目标”的数据集目标术语中。 有关概述,请参阅将数据集导出到云存储目标

支持以下云存储目标:

EXPERIENCE PLATFORMUI

您可以通过Experience PlatformUI导出和计划数据集的导出。 本节介绍所涉及的步骤。

选择目标

确定要将数据集导出到的云存储目标后,选择目标。 如果尚未为首选云存储配置目标,则必须创建新的目标连接

在配置目标时,您可以定义:

  • 文件类型(JSON或Parquet),
  • 是否应该压缩结果文件,以及
  • 是否应该包含清单文件。

选择数据集

选择目标后,在下一个​ 选择数据集 ​步骤中,您必须从数据集列表中选择数据集。 如果您创建了多个计划查询,并且希望数据集发送到同一云存储目标,则可以选择相应的数据集。 有关详细信息,请参阅选择您的数据集

计划数据集导出

最后,要计划数据集导出作为​ 计划 ​步骤的一部分。 在该步骤中,您可以定义计划以及数据集导出是否应增量导出。 有关详细信息,请参阅计划数据集导出

最后步骤

审核您的选择,如果正确,则开始将数据集导出到云存储目标。

首先,您必须验证数据导出是否成功。 导出数据集时,Experience Platform会在目标中定义的存储位置创建一个或多个.json.parquet文件。 根据您设置的导出计划,希望将新文件存储在您的存储位置。 Experience Platform会在您指定为选定目标的一部分的存储位置中创建文件夹结构,存放导出的文件。 每次导出时都会创建一个新文件夹,其模式为: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM。 默认文件名是随机生成的,并确保导出的文件名是唯一的。

流服务API

或者,您可以使用API导出和计划数据集的导出。 使用流服务API🔗在导出数据集中记录了所涉及的步骤。

快速入门

要导出数据集,请确保您具有所需的权限。 此外,还要验证要将数据集发送到的目标是否支持导出数据集。 然后,您必须收集在API调用中使用的必需和可选标头的值。 您还需要识别要将数据集导出到的目标的连接规范和流规范ID。

检索符合条件的数据集

您可以检索符合条件的数据集列表以供导出,并使用GET /connectionSpecs/{id}/configs API验证您的数据集是否属于该列表。

创建源连接

接下来,您必须使用要导出到云存储目标的数据集的唯一ID 为数据集创建源连接。 您使用POST /sourceConnections API。

向目标进行身份验证(创建基本连接)

您现在必须创建基本连接以使用POST /targetConection API进行身份验证并将凭据安全地存储到您的云存储目标。

提供导出参数

接下来,您必须🔗再使用POST /targetConection API创建一个目标连接,用于存储数据集的导出参数。 这些导出参数包括位置、文件格式、压缩等。

设置数据流

最后,您设置数据流,以确保使用POST /flows API将您的数据集导出到云存储目标。 在此步骤中,您可以使用scheduleParams参数定义导出的计划。

验证数据流

检查数据流是否成功执行,请使用GET /runs API,将数据流ID指定为查询参数。 此数据流ID是您在设置数据流时返回的标识符。

验证数据导出是否成功。 导出数据集时,Experience Platform会在目标中定义的存储位置创建一个或多个.json.parquet文件。 根据您设置的导出计划,希望将新文件存储在您的存储位置。 Experience Platform会在您指定为选定目标的一部分的存储位置中创建文件夹结构,存放导出的文件。 每次导出时都会创建一个新文件夹,其模式为: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM。 默认文件名是随机生成的,并确保导出的文件名是唯一的。

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79