导出数据集
本文概述如何使用Customer Journey Analytics Export datasets实现以下数据导出用例:
- 数据备份
简介
使用Experience Platform Export datasets导出数据允许您将数据从Customer Journey Analytics数据视图导出到任何云存储目标。
更多信息
您可以将原始数据集从Experience Platform中的数据湖导出到云存储目标。 此导出位于称为“Experience Platform导出目标”的数据集目标术语中。 有关概述,请参阅将数据集导出到云存储目标。
支持以下云存储目标:
EXPERIENCE PLATFORMUI
您可以通过Experience PlatformUI导出和计划数据集的导出。 本节介绍所涉及的步骤。
选择目标
确定要将数据集导出到的云存储目标后,选择目标。 如果尚未为首选云存储配置目标,则必须创建新的目标连接。
在配置目标时,您可以定义:
- 文件类型(JSON或Parquet),
- 是否应该压缩结果文件,以及
- 是否应该包含清单文件。
选择数据集
选择目标后,在下一个 选择数据集 步骤中,您必须从数据集列表中选择数据集。 如果您创建了多个计划查询,并且希望数据集发送到同一云存储目标,则可以选择相应的数据集。 有关详细信息,请参阅选择您的数据集。
计划数据集导出
最后,要计划数据集导出作为 计划 步骤的一部分。 在该步骤中,您可以定义计划以及数据集导出是否应增量导出。 有关详细信息,请参阅计划数据集导出。
最后步骤
审核您的选择,如果正确,则开始将数据集导出到云存储目标。
首先,您必须验证数据导出是否成功。 导出数据集时,Experience Platform会在目标中定义的存储位置创建一个或多个.json
或.parquet
文件。 根据您设置的导出计划,希望将新文件存储在您的存储位置。 Experience Platform会在您指定为选定目标的一部分的存储位置中创建文件夹结构,存放导出的文件。 每次导出时都会创建一个新文件夹,其模式为: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
。 默认文件名是随机生成的,并确保导出的文件名是唯一的。
流服务API
或者,您可以使用API导出和计划数据集的导出。 使用流服务API🔗在导出数据集中记录了所涉及的步骤。
快速入门
要导出数据集,请确保您具有所需的权限。 此外,还要验证要将数据集发送到的目标是否支持导出数据集。 然后,您必须收集在API调用中使用的必需和可选标头的值。 您还需要识别要将数据集导出到的目标的连接规范和流规范ID。
检索符合条件的数据集
您可以检索符合条件的数据集列表以供导出,并使用GET /connectionSpecs/{id}/configs
API验证您的数据集是否属于该列表。
创建源连接
接下来,您必须使用要导出到云存储目标的数据集的唯一ID 为数据集创建源连接。 您使用POST /sourceConnections
API。
向目标进行身份验证(创建基本连接)
您现在必须创建基本连接以使用POST /targetConection
API进行身份验证并将凭据安全地存储到您的云存储目标。
提供导出参数
接下来,您必须🔗再使用POST /targetConection
API创建一个目标连接,用于存储数据集的导出参数。 这些导出参数包括位置、文件格式、压缩等。
设置数据流
最后,您设置数据流,以确保使用POST /flows
API将您的数据集导出到云存储目标。 在此步骤中,您可以使用scheduleParams
参数定义导出的计划。
验证数据流
要检查数据流是否成功执行,请使用GET /runs
API,将数据流ID指定为查询参数。 此数据流ID是您在设置数据流时返回的标识符。
验证数据导出是否成功。 导出数据集时,Experience Platform会在目标中定义的存储位置创建一个或多个.json
或.parquet
文件。 根据您设置的导出计划,希望将新文件存储在您的存储位置。 Experience Platform会在您指定为选定目标的一部分的存储位置中创建文件夹结构,存放导出的文件。 每次导出时都会创建一个新文件夹,其模式为: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
。 默认文件名是随机生成的,并确保导出的文件名是唯一的。