在UI中使用数据库源创建数据流
数据流是一种计划任务,用于在源中检索数据并将其摄取到Adobe Experience Platform中的数据集。 本教程提供了有关如何使用Platform UI为数据库源创建数据流的步骤。
-
要创建数据流,您必须已拥有具有数据库源的经过身份验证的帐户。 在源概述中可以找到在UI中创建不同数据库源帐户的教程列表。
-
要使Experience Platform摄取数据,必须将所有基于表的批处理源的时区配置为UTC时区。 Snowflake 源唯一支持的时间戳是带有UTC时间的TIMESTAMP_NTZ。
快速入门
本教程需要您对Platform的以下组件有一定的了解:
-
源:平台允许从各种源摄取数据,同时允许您使用Platform服务来构建、标记和增强传入数据。
-
Experience Data Model (XDM) 系统:Experience Platform用于组织客户体验数据的标准化框架。
-
Real-Time Customer Profile:根据来自多个源的汇总数据,提供统一的实时使用者个人资料。
-
Data Prep:允许数据工程师映射、转换和验证与Experience Data Model (XDM)之间的数据。
添加数据
创建数据库源帐户后,将显示 添加数据 步骤,该步骤为您提供了一个浏览数据库源帐户的表层次结构的界面。
- 界面的左半部分是一个浏览器,显示帐户中包含的数据表列表。 该界面还包括一个搜索选项,可让您快速识别要使用的源数据。
- 界面的右半部分是预览面板,允许您预览最多100行数据。
找到源数据后,请选择该表,然后选择 下一步。
提供数据流详细信息
数据流详细信息页面允许您选择是要使用现有数据集,还是使用新数据集。 在此过程中,您还可以配置配置文件数据集、错误诊断、部分摄取和警报的设置。
使用现有数据集
要将数据摄取到现有数据集,请选择 现有数据集。 您可以使用高级搜索选项或通过滚动下拉菜单中的现有数据集列表来检索现有数据集。 选择数据集后,为数据流提供名称和描述。
使用新数据集
要摄取到新数据集中,请选择 新数据集,然后提供输出数据集名称和可选描述。 接下来,使用高级搜索选项或通过滚动下拉菜单中的现有架构列表来选择要映射到的架构。 选择架构后,为数据流提供名称和描述。
启用Profile和错误诊断
接下来,选择 配置文件数据集 切换开关以为Profile启用您的数据集。 这允许您创建实体的属性和行为的整体视图。 来自所有已启用Profile的数据集的数据将包含在Profile中,并且更改会在您保存数据流时应用。
错误诊断允许为数据流中发生的任何错误记录生成详细的错误消息,而部分摄取允许您摄取包含错误的数据,摄取阈值为您手动定义的某个阈值。 有关详细信息,请参阅部分批次摄取概述。
启用警报
您可以启用警报以接收有关数据流状态的通知。 从列表中选择警报以订阅接收有关数据流状态的通知。 有关警报的详细信息,请参阅使用UI订阅源警报指南。
完成向数据流提供详细信息后,选择 下一步。
将数据字段映射到XDM架构
此时将显示映射步骤,该步骤为您提供了一个接口,用于将源架构中的源字段映射到目标架构中相应的目标XDM字段。
Platform根据您选择的目标架构或数据集,为自动映射的字段提供智能推荐。 您可以手动调整映射规则以适合您的用例。 根据需要,您可以选择直接映射字段,或使用数据准备函数转换源数据以派生计算值或计算值。 有关使用映射器界面和计算字段的全面步骤,请参阅数据准备UI指南。
成功映射源数据后,选择 下一步。
计划摄取运行
此时将显示计划步骤,允许您配置摄取计划,以使用配置的映射自动摄取选定的源数据。 默认情况下,计划设置为Once
。 要调整您的摄取频率,请选择 频率,然后从下拉菜单中选择一个选项。
如果将摄取频率设置为Minute
、Hour
、Day
或Week
,则必须设置一个间隔,以便在每次摄取之间建立一个设置的时间范围。 例如,摄取频率设置为Day
,间隔设置为15
意味着您的数据流计划每15天摄取一次数据。
在此步骤中,您还可以启用 回填 并为增量数据摄取定义列。 回填用于摄取历史数据,而您为增量摄取定义的列允许从现有数据中区分新数据。
有关计划配置的详细信息,请参阅下表。
配置频率以指示数据流运行的频率。 您可以将频率设置为:
- 一次:将频率设置为
once
以创建一次性引入。 创建一次性摄取数据流时,间隔和回填配置不可用。 默认情况下,调度频率设置为一次。 - 分钟:将频率设置为
minute
,以计划数据流以每分钟摄取数据。 - 小时:将频率设置为
hour
,以计划数据流每小时摄取数据。 - 天:将频率设置为
day
,以计划数据流每天摄取数据。 - 周:将频率设置为
week
,以计划数据流每周摄取数据。
选择频率后,可以配置间隔设置以建立每次引入之间的时间范围。 例如,如果将频率设置为天并将间隔配置为15,则数据流将每15天运行一次。 不能将间隔设置为零。 每个频率的最小接受间隔值如下:
- 一次:不适用
- 分钟: 15
- 小时: 1
- 天: 1
- 周: 1
查看您的数据流
将显示 审核 步骤,允许您在创建新数据流之前对其进行审核。 详细信息分为以下类别:
- 连接:显示源类型、所选源文件的相关路径以及该源文件中的列数。
- 分配数据集和映射字段:显示要将源数据摄取到哪个数据集,包括数据集所遵循的架构。
- 计划:显示摄取计划的活动时段、频率和间隔。
查看数据流后,选择 完成,然后等待一些时间来创建数据流。
监测数据流
创建数据流后,您可以监视通过它摄取的数据,以查看有关摄取率、成功和错误的信息。 有关如何监视数据流的详细信息,请参阅有关UI🔗中监视帐户和数据流的教程。
删除您的数据流
您可以删除不再必需的数据流或使用 数据流 工作区中提供的 删除 功能错误地创建的数据流。 有关如何删除数据流的详细信息,请参阅有关在UI中删除数据流的教程。
后续步骤
通过完成本教程,您已成功创建了一个数据流,将数据从数据库源引入Platform。 下游Platform服务(如Real-Time Customer Profile和Data Science Workspace)现在可以使用传入数据。 有关更多详细信息,请参阅以下文档: