在UI中为云存储批处理连接配置数据流

数据流是从源中检索数据并将其引入Platform数据集的计划任务。 本教程提供了使用云存储帐户配置新数据流的步骤。

入门指南

本教程需要对Adobe Experience Platform的以下组件有充分的了解:

此外,本教程要求您已建立云存储帐户。 在源连接器概述中,可以找到有关在UI中创建不同云存储帐户的列表教程。

支持的文件格式

Experience Platform 支持从外部存储摄取的以下文件格式:

  • 分隔符分隔值(DSV):任何单字符值都可用作DSV格式数据文件的分隔符。
  • JavaScript Object Notation (JSON):JSON格式的数据文件必须符合XDM。
  • Apache Parquet:拼花格式的数据文件必须符合XDM。

选择数据

创建云存储帐户后,将显示​Select data​步骤,为您提供一个界面来浏览云存储文件层次结构。

  • 界面的左侧是目录浏览器,显示您的云存储文件和目录。
  • 该界面的右侧部分允许您从一个兼容文件中预览多达100行数据。

界面

通过选择列出的文件夹,您可以将文件夹层次结构遍历到更深入的文件夹中。 您可以选择单个文件夹以递归收录该文件夹中的所有文件。 在摄取整个文件夹时,必须确保该文件夹中的所有文件共享相同的模式。

选择兼容文件或文件夹后,从Select data format下拉菜单中选择相应的数据格式。

下表显示了支持的文件类型的相应数据格式:

文件类型 数据格式
CSV Delimited
JSON JSON
镶木 XDM Parquet

选择​JSON​并等待几秒钟以填充预览接口。

select-data

注意

与分隔文件和JSON文件类型不同,Parke格式文件不可用于预览。

预览界面允许您检查文件的内容和结构。 默认情况下,预览界面显示所选文件夹中的第一个文件。

要预览其他文件,请选择要检查的文件名称旁边的预览图标。

默认预览

检查文件夹中文件的内容和结构后,选择​Next​以递归收录文件夹中的所有文件。

select-folder

如果您希望选择特定文件,请选择要收录的文件,然后选择​Next

select-file

为分隔文件设置自定义分隔符

可在收录分隔文件时设置自定义分隔符。 选择​Delimiter​选项,然后从下拉菜单中选择分隔符。 菜单显示最常用的分隔符选项,包括逗号(,)、制表符(\t)和管道(|)。 如果您希望使用自定义分隔符,请选择​Custom​并在弹出输入栏中输入您选择的单字符分隔符。

选择数据格式并设置分隔符后,请选择​Next

将数据字段映射到XDM模式

将出现​Mapping​步骤,提供一个交互式界面,将源数据映射到Platform数据集。 采用Parke格式的源文件必须符合XDM规范,并且不需要您手动配置映射,而CSV文件要求您显式配置映射,但允许您选择要映射的源数据字段。 JSON文件(如果标记为XDM投诉)不需要手动配置。 但是,如果未标记为符合XDM规范,则需要显式配置映射。

为要摄取的入站数据选择数据集。 您可以使用现有数据集或创建新数据集。

使用现有数据集

要将数据收录到现有数据集中,请选择​Existing dataset,然后选择数据集图标。

出现​Select dataset​对话框。 找到您要使用的数据集,选择它,然后单击​Continue

使用新数据集

要将数据收录到新数据集中,请选择​New dataset,并在提供的字段中输入数据集的名称和说明。 要添加模式,可以在​Select schema​对话框中输入现有模式名称。 或者,您也可以选择​Schema advanced search​以搜索适当的模式。

在此步骤中,您可以为Real-time Customer Profile启用数据集,并创建实体属性和行为的整体视图。 Profile中将包含所有已启用数据集中的数据,并在保存数据流时应用更改。

切换​Profile dataset​按钮,为Profile启用目标数据集。

出现​Select schema​对话框。 选择要应用于新数据集的模式,然后选择​Done

根据您的需要,您可以选择直接映射字段,或使用映射器函数转换源数据以导出计算值或计算值。 有关模式映射和映射器函数的详细信息,请参阅有关将CSV数据映射到XDM字段的教程。

对于JSON文件,除了将字段直接映射到其他字段之外,您还可以将对象直接映射到其他对象和数组到其他数组。您还可以使用云存储源连接器预览和映射JSON文件中的数组等复杂数据类型。

请注意,您无法跨不同类型进行映射。 例如,您无法将对象映射到数组,或将字段映射到对象。

小贴士

Platform 根据您选择的目标模式或数据集,为自动映射字段提供智能建议。您可以手动调整映射规则以适合您的使用案例。

选择​Preview data​可查看所选数据集中最多100行样本数据的映射结果。

在该预览中,标识列作为第一字段进行优先级排序,因为它是验证映射结果时所需的关键信息。

映射源数据后,选择​Close

计划摄取运行

将显示​Scheduling​步骤,允许您配置摄取计划,以使用配置的映射自动摄取所选源数据。 下表概述了用于计划的不同可配置字段:

字段 描述
频度 可选频率包括OnceMinuteHourDayWeek
间隔 一个整数,用于设置所选频率的间隔。
开始时间 一个UTC时间戳,指示何时设置第一次摄取。
回填 一个布尔值,它确定最初摄取的数据。 如果启用​Backfill,则在首次计划引入期间将摄取指定路径中的所有当前文件。 如果​Backfill​被禁用,则只会摄取在第一次摄取和开始时间之间加载的文件。 不会摄取在开始时间之前加载的文件。

数据流设计为按计划自动收录数据。 开始。 接下来,设置时间间隔以指定两个流运行之间的时间段。 间隔的值应为非零整数,并应设置为大于或等于15。

要设置摄取的开始时间,请调整开始时间框中显示的日期和时间。 或者,您也可以选择日历图标来编辑开始时间值。 开始时间必须大于或等于UTC中的当前时间。

为计划提供值,然后选择​Next

设置一次性摄取数据流

要设置一次性摄取,请选择频率下拉箭头并选择​Once。 您可以继续编辑数据流集以进行一次频率摄取,只要开始时间将来保持不变。 开始时间过去后,一次性频率值便无法再进行编辑。 IntervalBackfill 且在设置一次性摄取数据流时不可见。

重要

强烈建议在使用 FTP连接器时计划数据流以进行一次性摄取。

向计划提供适当值后,请选择​Next

提供数据流详细信息

将出现​Dataflow detail​步骤,允许您命名新数据流并提供有关新数据流的简短说明。

在此过程中,您还可以启用​Partial ingestion​和​Error diagnostics。 启用​Partial ingestion​后,可以摄取包含错误的数据,最多可设置某个阈值。 启用​Error diagnostics​将提供有关单独分批的任何不正确数据的详细信息。 有关详细信息,请参阅部分批摄取概述

为数据流提供值,然后选择​Next

查看数据流

将显示​Review​步骤,允许您在创建新数据流之前查看新数据流。 详细信息按以下类别分组:

  • Connection:显示源类型、所选源文件的相关路径以及该源文件中的列数。
  • Assign dataset & map fields:显示接收源数据的模式集,包括数据集附带的数据集。
  • Scheduling:显示摄取计划的活动期、频率和间隔。

查看数据流后,单击​Finish​并允许一段时间创建数据流。

监控数据流

创建数据流后,您可以监视通过它摄取的数据,以查看有关摄取率、成功和错误的信息。 有关如何监视数据流的详细信息,请参阅有关在UI中监视帐户和数据流的教程。

删除数据流

您可以删除不再需要的或使用​Dataflows​工作区中可用的​Delete​函数创建错误的数据流。 有关如何删除数据流的详细信息,请参阅有关在UI🔗中删除数据流的教程。

后续步骤

通过本教程,您成功创建了一个数据流以从外部云存储导入数据,并获得了有关监视数据集的洞察。 要了解有关创建数据流的更多信息,您可以通过观看以下视频来补充您的学习内容。 此外,下游Platform服务(如Real-time Customer Profile和Data Science Workspace)现在可以使用传入数据。 有关更多详细信息,请参阅以下文档:

警告

以下视频中显示的Platform UI已过期。 有关最新的UI屏幕截图和功能,请参阅上述文档。

附录

以下部分提供了有关使用源连接器的其他信息。

禁用数据流

创建数据流后,它会立即变为活动状态,并根据给出的计划收集数据。 您可以按照以下说明随时禁用活动数据流。

在​Sources​工作区中,单击​Browse​选项卡。 接下来,单击与要禁用的活动数据流关联的帐户名称。

将显示​Source activity​页。 从列表中选择活动数据流,以在屏幕右侧打开其​Properties​列,该列包含一个​Enabled​切换按钮。 单击切换可禁用数据流。 在禁用数据流后,可以使用相同的切换来重新启用数据流。

激活Profile人口的入站数据

来自源连接器的入站数据可用于丰富和填充Real-time Customer Profile数据。 有关填充Real-time Customer Profile数据的详细信息,请参阅关于用户档案填充的教程。

On this page