将数据集导出到云存储目标
- 已购买Real-Time CDP Prime或Ultimate包、Adobe Journey Optimizer或Customer Journey Analytics的客户可使用此功能。 有关更多信息,请与您的Adobe代表联系。
本文介绍使用Experience PlatformUI将数据集从Adobe Experience Platform导出到首选云存储位置(如Amazon S3、SFTP位置或Google Cloud Storage)所需的工作流。
您还可以使用Experience PlatformAPI导出数据集。 有关详细信息,请阅读导出数据集API教程。
可用于导出的数据集 datasets-to-export
根据Experience Platform应用程序(Real-Time CDP、Adobe Journey Optimizer)、层(Prime或Ultimate)以及您购买的任何加载项(例如:Data Distiller),您可以导出的数据集会有所不同。
根据您购买的应用程序、产品层和任何加载项,从下表了解可以导出哪些数据集类型:
- 通过源、Web SDK、Mobile SDK、Analytics Data Connector和Audience Manager摄取或收集数据后,在Experience PlatformUI中创建的配置文件和体验事件数据集。
- 系统生成的配置文件快照数据集。
通过源、Web SDK、Mobile SDK、Analytics Data Connector和Audience Manager摄取或收集数据后,在Experience PlatformUI中创建的配置文件和体验事件数据集。
可用性注意事项: 将数据集导出到云的功能处于版本的有限测试阶段,可能在您的环境中尚不可用。 当功能正式可用时,将删除此注释。 有关Customer Journey Analytics发布过程的信息,请参阅Customer Journey Analytics功能发布。
视频教程 video-tutorial
观看以下视频,了解此页面上描述的工作流的端到端说明、使用导出数据集功能的好处以及一些建议的用例。
支持的目标 supported-destinations
目前,您可以将数据集导出到屏幕快照中突出显示的云存储目标,如下所列。
何时激活受众或导出数据集 when-to-activate-audiences-or-activate-datasets
Experience Platform目录中的一些基于文件的目标同时支持Audience Activation和数据集导出。
- 当您希望将数据结构化为按受众兴趣或资格分组的用户档案时,请考虑激活受众。
- 或者,在要导出未按受众兴趣或资格进行分组或构建的原始数据集时,请考虑数据集导出。 您可以将此数据用于报表、数据科学工作流和许多其他用例。 例如,作为管理员、数据工程师或分析师,您可以从Experience Platform中导出数据以与数据仓库同步、在BI分析工具、外部云ML工具中使用,或存储在您的系统中以满足长期存储需求。
本文档包含导出数据集所需的所有信息。 如果要将 受众 激活到云存储或电子邮件营销目标,请阅读将受众数据激活到批量配置文件导出目标。
先决条件 prerequisites
要将数据集导出到云存储目标,您必须已成功连接到目标。 如果您尚未这样做,请转到目标目录,浏览支持的目标,然后配置要使用的目标。
所需的权限 permissions
要导出数据集,您需要 查看目标、查看数据集 和 管理和激活数据集目标 访问控制权限。 阅读访问控制概述或联系您的产品管理员以获取所需的权限。
要确保您具有导出数据集的必要权限并且目标支持导出数据集,请浏览目标目录。 如果目标具有 激活 或 导出数据集 控件,则您具有相应的权限。
选择您的目标 select-destination
按照相关说明选择一个可导出数据集的目标:
-
转到 连接>目标,然后选择 目录 选项卡。
-
在与要将数据集导出到的目标对应的卡片上,选择 激活 或 导出数据集。
-
选择 数据类型数据集 并选择要将数据集导出到的目标连接,然后选择 下一步。
- 出现 选择数据集 视图。 继续到选择要导出的数据集的下一部分。
选择您的数据集 select-datasets
使用数据集名称左侧的复选框选择要导出到目标的数据集,然后选择 下一步。
计划数据集导出 scheduling
在 计划 步骤中,您可以为数据集导出设置开始日期和导出节奏。
已自动选择 导出增量文件 选项。 这会触发导出一个或多个表示数据集的完整快照的文件。 后续文件是自上次导出以来向数据集添加的增量文件。
-
使用 频率 选择器选择导出频率:
- 每日:计划每天在指定的时间导出一次增量文件。
- 小时:计划每3、6、8或12小时导出一次增量文件。
-
使用 Time 选择器以UTC格式选择一天中何时进行导出。
-
使用 日期 选择器选择应执行导出的时间间隔。 请注意,您当前无法设置导出的结束日期。 有关详细信息,请查看已知限制部分。
-
选择 下一步 保存计划并继续 审阅 步骤。
审查 review
在 审核 页面上,您可以看到所选内容的摘要。 选择 取消 以中断流,返回 以修改您的设置,或者选择 完成 以确认您的选择并开始将数据集导出到目标。
验证是否成功导出数据集 verify
导出数据集时,Experience Platform会在您提供的存储位置中创建一个或多个文件.json
或.parquet
。 希望根据您提供的导出计划将新文件存储在您的存储位置。
Experience Platform会在您指定的存储位置创建一个文件夹结构,存放导出的数据集文件。 每次导出时都会创建一个新文件夹,其模式如下所示:
folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
默认文件名是随机生成的,并确保导出的文件名是唯一的。
示例数据集文件 sample-files
这些文件在存储位置中的存在是成功导出的确认。 要了解导出文件的结构方式,您可以下载示例.parquet文件或.json文件。
压缩的数据集文件 compressed-dataset-files
在连接到目标工作流中,您可以选择要压缩的导出数据集文件,如下所示:
请注意两种文件类型在压缩后的文件格式差异:
- 导出压缩的JSON文件时,导出的文件格式为
json.gz
- 导出压缩的parquet文件时,导出的文件格式为
gz.parquet
从目标中删除数据集 remove-dataset
要从现有数据流中删除数据集,请执行以下步骤:
-
登录到Experience PlatformUI,然后从左侧导航栏中选择 目标。 从顶部标题中选择 浏览 以查看现有目标数据流。
note tip TIP 选择左上角的过滤器图标 以启动排序面板。 排序面板提供所有目标的列表。 您可以从列表中选择多个目标,以查看与所选目标关联的数据流的过滤选择。 -
从 激活数据 列中,选择数据集控件以查看映射到此导出数据流的所有数据集。
-
[Beta]{class="badge informative"}将显示目标的 激活数据 页面。 使用数据集列表左侧的复选框选择要删除的数据集,然后在右边栏中选择 删除数据集 以触发删除数据集确认对话框。
note note NOTE 此功能为测试版,仅向部分客户提供。 要请求访问此功能,请联系您的Adobe代表。 -
在确认对话框中,选择 移除 以立即从导出到目标的数据集中移除数据集。
数据集导出授权 licensing-entitlement
请参阅产品描述文档,了解您每年有权为每个Experience Platform应用程序导出多少数据。 例如,您可以在此处查看Real-Time CDP产品说明。
请注意,不同应用程序的数据导出权限不是累加的。 例如,这意味着如果您购买Real-Time CDP Ultimate和Adobe Journey Optimizer Ultimate,则根据产品描述,用户档案导出权利将是两个权利中较大的一个权利。 您的批量权利的计算方法是:获取许可配置文件的总数,然后乘以Real-Time CDP Prime的500 KB或Real-Time CDP Ultimate的700 KB,从而确定您有权获得的数据量。
另一方面,如果您购买了Data Distiller等加载项,则您有权获得的数据导出限制表示产品层和加载项的总和。
您可以在许可控制面板中查看和跟踪配置文件导出是否符合合同限制。
已知限制 known-limitations
对于数据集导出的常规可用性版本,请牢记以下限制:
- 目前,您只能导出增量文件,并且无法为数据集导出选择结束日期。
- 当前无法自定义导出的文件名。
- 通过API创建的数据集当前不可导出。
- 目前,UI不会阻止您删除正在导出到目标的数据集。 请勿删除任何正在导出到目标的数据集。 删除目标数据流中的数据集之前。
- 数据集导出的监控量度当前与用户档案导出的数字混杂在一起,因此它们不反映真正的导出数字。
- 时间戳超过365天的数据将从数据集导出中排除。 有关详细信息,请查看计划数据集导出的护栏