将数据集导出到云存储目标
- 已购买Real-Time CDP Prime或Ultimate包、Adobe Journey Optimizer或Customer Journey Analytics的客户可使用此功能。 有关更多信息,请与您的Adobe代表联系。
本文介绍了导出所需的工作流 数据集 从Adobe Experience Platform到您的首选云存储位置,例如 Amazon S3、 SFTP位置或 Google Cloud Storage 通过使用Experience PlatformUI。
您还可以使用Experience PlatformAPI导出数据集。 阅读 导出数据集API教程 以了解更多信息。
可用于导出的数据集 datasets-to-export
根据Experience Platform应用程序(Real-Time CDP、Adobe Journey Optimizer)、层(Prime或Ultimate)以及您购买的任何加载项(例如:Data Distiller),您可以导出的数据集会有所不同。
根据您购买的应用程序、产品层和任何加载项,从下表了解可以导出哪些数据集类型:
- 通过源、Web SDK、Mobile SDK、Analytics Data Connector和Audience Manager摄取或收集数据后,在Experience PlatformUI中创建的配置文件和体验事件数据集。
- 系统生成的配置文件快照数据集.
通过源、Web SDK、Mobile SDK、Analytics Data Connector和Audience Manager摄取或收集数据后,在Experience PlatformUI中创建的配置文件和体验事件数据集。
关于可用性的说明: 将数据集导出到云的功能处于版本的有限测试阶段,可能在您的环境中尚不可用。 当该功能正式发布时,将删除此说明。有关Customer Journey Analytics发布过程的信息,请参阅 Customer Journey Analytics功能发布.
视频教程 video-tutorial
观看以下视频,了解此页面上描述的工作流的端到端说明、使用导出数据集功能的好处以及一些建议的用例。
支持的目标 supported-destinations
目前,您可以将数据集导出到屏幕快照中突出显示的云存储目标,如下所列。
何时激活受众或导出数据集 when-to-activate-audiences-or-activate-datasets
Experience Platform目录中的一些基于文件的目标同时支持Audience Activation和数据集导出。
- 当您希望将数据结构化为按受众兴趣或资格分组的用户档案时,请考虑激活受众。
- 或者,在要导出未按受众兴趣或资格进行分组或构建的原始数据集时,请考虑数据集导出。 您可以将此数据用于报表、数据科学工作流和许多其他用例。 例如,作为管理员、数据工程师或分析师,您可以从Experience Platform中导出数据以与数据仓库同步、在BI分析工具、外部云ML工具中使用,或存储在您的系统中以满足长期存储需求。
本文档包含导出数据集所需的所有信息。 如果要激活 受众 要访问云存储或电子邮件营销目标,请阅读 将受众数据激活到批量配置文件导出目标.
先决条件 prerequisites
要将数据集导出到云存储目标,您必须已成功完成 已连接到目标. 如果您尚未这样做,请转到 目标目录,浏览支持的目标,并配置要使用的目标。
所需权限 permissions
要导出数据集,您需要 查看目标, 查看数据集、和 管理和激活数据集目标 访问控制权限. 阅读 访问控制概述 或与产品管理员联系以获取所需的权限。
要确保您具有导出数据集的必要权限并且目标支持导出数据集,请浏览目标目录。 如果目标具有 激活 或 导出数据集 则您具有相应的权限。
选择您的目标 select-destination
按照相关说明选择一个可导出数据集的目标:
-
转到 “连接”>“目标”,然后选择 目录 选项卡。
-
选择 激活 或 导出数据集 在与要将数据集导出到的目标对应的卡上。
-
选择 数据类型数据集 并选择要将数据集导出到的目标连接,然后选择 下一个.
- 此 选择数据集 视图。 继续下一节以 选择数据集 以导出。
选择您的数据集 select-datasets
使用数据集名称左侧的复选框选择要导出到目标的数据集,然后选择 下一个.
计划数据集导出 scheduling
在 正在计划 步骤,您可以为数据集导出设置开始日期和导出节奏。
此 导出增量文件 选项。 这会触发导出一个或多个表示数据集的完整快照的文件。 后续文件是自上次导出以来向数据集添加的增量文件。
-
使用 频率 选择器以选择导出频率:
- 每日:计划每天在指定的时间导出一次增量文件。
- 每小时:计划每3、6、8或12小时执行一次增量文件导出。
-
使用 时间 选择器以选择一天中的时间,在 UTC 格式,应何时进行导出。
-
使用 日期 选择器来选择应进行导出的时间间隔。 请注意,您当前无法设置导出的结束日期。 有关详细信息,请查看 已知限制 部分。
-
选择 下一个 保存计划并转到 审核 步骤。
审核 review
在 审核 页面上,您可以看到选择的摘要。 选择 取消 来打破气流, 返回 以修改设置,或者 完成 以确认您的选择并开始将数据集导出到目标。
验证是否成功导出数据集 verify
导出数据集时,Experience Platform创建一个或多个数据集 .json
或 .parquet
文件位于您提供的存储位置。 希望根据您提供的导出计划将新文件存储在您的存储位置。
Experience Platform会在您指定的存储位置创建一个文件夹结构,存放导出的数据集文件。 每次导出时都会创建一个新文件夹,其模式如下所示:
folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
默认文件名是随机生成的,并确保导出的文件名是唯一的。
示例数据集文件 sample-files
这些文件在存储位置中的存在是成功导出的确认。 要了解导出文件的结构形式,您可以下载示例 .parquet文件 或 .json文件.
压缩的数据集文件 compressed-dataset-files
在 连接到目标工作流中,您可以选择要压缩的导出数据集文件,如下所示:
请注意两种文件类型在压缩后的文件格式差异:
- 导出压缩的JSON文件时,导出的文件格式为
json.gz
- 导出压缩的parquet文件时,导出的文件格式为
gz.parquet
从目标中删除数据集 remove-dataset
要从现有数据流中删除数据集,请执行以下步骤:
-
登录到 EXPERIENCE PLATFORMUI 并选择 目标 左侧导航栏中。 选择 浏览 查看现有目标数据流。
note tip TIP 选择过滤器图标 以启动“排序”面板。 排序面板提供所有目标的列表。 您可以从列表中选择多个目标,以查看与所选目标关联的数据流的过滤选择。 -
从 激活数据 列中,选择数据集控件以查看映射到此导出数据流的所有数据集。
-
此 激活数据 此时将显示目标页。 选择要删除的数据集,然后选择 移除数据集 在右边栏中触发“数据集移除确认”对话框。
-
在确认对话框中,选择 移除 以立即从到目标的导出中删除数据集。
数据集导出授权 licensing-entitlement
请参阅产品描述文档,了解您每年有权为每个Experience Platform应用程序导出多少数据。 例如,您可以查看Real-Time CDP产品描述 此处.
请注意,不同应用程序的数据导出权限不是累加的。 例如,这意味着如果您购买Real-Time CDP Ultimate和Adobe Journey Optimizer Ultimate,则根据产品描述,用户档案导出权利将是两个权利中较大的一个权利。 您的批量权利的计算方法是:获取许可配置文件的总数,然后乘以Real-Time CDP Prime的500 KB或Real-Time CDP Ultimate的700 KB,从而确定您有权获得的数据量。
另一方面,如果您购买了Data Distiller等加载项,则您有权获得的数据导出限制表示产品层和加载项的总和。
您可以在许可控制面板中查看和跟踪配置文件导出是否符合合同限制。
已知限制 known-limitations
对于数据集导出的常规可用性版本,请牢记以下限制:
- 目前,您只能导出增量文件,并且无法为数据集导出选择结束日期。
- 当前无法自定义导出的文件名。
- 通过API创建的数据集当前不可导出。
- 目前,UI不会阻止您删除正在导出到目标的数据集。 请勿删除任何正在导出到目标的数据集。 移除数据集 从目标数据流中删除。
- 数据集导出的监控量度当前与用户档案导出的数字混杂在一起,因此它们不反映真正的导出数字。
- 时间戳超过365天的数据将从数据集导出中排除。 有关详细信息,请查看 计划数据集导出的护栏