摄取批量数据

在本课程中,您将使用各种方法将批量数据摄取到Experience Platform中。

批量数据摄取允许您一次将大量数据摄取到Adobe Experience Platform。 您可以在Platform界面中或使用API,一次性摄取批量数据。 您还可以使用源连接器配置从第三方服务(如云存储服务)定期安排的批量上传。

数据工程师 将需要在本教程之外摄取批量数据。

在开始练习之前,请观看此简短视频,以了解有关数据摄取的更多信息:

所需权限

配置权限 课程中,您将设置完成本课程所需的所有访问控制。

在“源”练习中,您需要访问(S)FTP服务器或云存储解决方案。 如果您没有解决方法,则可以使用此方法。

使用Platform用户界面批量摄取数据

数据可以以JSON和Parquet格式直接上传到数据集屏幕上的数据集中。 这是在创建

下载并准备数据

首先,获取示例数据并为租户自定义该数据:

注意

包含在 luma-data.zip 文件是虚构的,仅用于演示目的。

  1. 下载 luma-data.zipLuma教程资产 文件夹。

  2. 解压缩文件,并创建一个名为 luma-data 其中包含我们在本课程中使用的四个数据文件

  3. 打开 luma-loyalty.json ,并替换 _techmarketingdemos 使用您自己的underscore-tenant id,如您自己的架构中所示:
    下划线租户ID

  4. 保存更新的文件

摄取数据

  1. 在Platform用户界面中,选择 数据集 在左侧导航中

  2. 打开 Luma Loyalty Dataset

  3. 向下滚动直到您看到 添加数据 右列的

  4. 上传 luma-loyalty.json 文件。

  5. 文件上传后,将显示批处理的行

  6. 如果您在几分钟后重新加载页面,则应会看到该批处理已成功上传,其中包含1000条记录和1000个配置文件片段。

    摄取

注意

有几个选择, 错误诊断部分摄取,您将在本课程的各个屏幕上看到该内容。 教程中未介绍这些选项。 一些快速信息:

  • 启用错误诊断会生成有关摄取数据的数据,然后您可以使用数据访问API查看这些数据。 在 文档.
  • 部分摄取允许您摄取包含错误的数据,最多可以指定某个阈值。 在 文档

验证数据

有几种方法可确认已成功摄取数据。

在Platform用户界面中验证

要确认已将数据摄取到数据集,请执行以下操作:

  1. 在摄取数据的同一页面上,选择 预览数据集 按钮

  2. 选择 预览 按钮,您应该能够看到一些摄取的数据。

    预览成功的数据集

要确认登录到用户档案的数据(数据登陆可能需要几分钟),请执行以下操作:

  1. 转到 用户档案 在左侧导航中

  2. 选择 选择身份命名空间 字段以打开模式窗口

  3. 选择 Luma Loyalty Id 命名空间

  4. 然后,输入 loyaltyId 值, 5625458

  5. 选择 查看

    从数据集确认用户档案

使用数据摄取事件进行验证

如果您订阅了上一课程中的数据摄取事件,请检查您唯一的webhook.site URL。 您应会看到三个请求按以下顺序显示,它们之间会有一段时间,并且如下所示 eventCode 值:

  1. ing_load_success — 摄取的批次
  2. ig_load_success — 将批次摄取到身份图中
  3. ps_load_success — 将批次摄取到配置文件服务中

数据摄取WebHook

请参阅 文档 以了解有关通知的更多详细信息。

使用Platform API批量摄取数据

现在,让我们使用API上传数据。

注意

数据架构师,可随时通过用户界面方法上传CRM数据。

下载并准备数据

  1. 您应该已经下载并解压 luma-data.zipLuma Tutorial Assets 文件夹。
  2. 打开 luma-crm.json ,并替换 _techmarketingdemos ,如您的架构中所示
  3. 保存更新的文件

获取数据集ID

首先,让我们获取要将数据摄取到的数据集的数据集ID:

  1. Open Postman
  2. 如果您在过去24小时内未发出请求,则授权令牌可能已过期。 打开请求 Adobe I/O Access Token Generation > Local Signing (Non-production use-only) > IMS: JWT Generate + Auth via User Token 选择 发送 请求新的JWT和访问令牌,就像您在 Postman 课程。
  3. 打开环境变量,并确保 CONTAINER_ID 仍为 tenant
  4. 打开请求 Catalog Service API > Datasets > Retrieve a list of datasets. 选择 发送
  5. 你应该得到 200 OK 响应
  6. 复制 Luma CRM Dataset 从响应主体
    获取数据集ID

创建批

现在,我们可以在数据集中创建一个批次:

  1. 下载 数据摄取API.postman_collection.jsonLuma Tutorial Assets 文件夹

  2. 将集合导入 Postman

  3. 选择请求 Data Ingestion API > Batch Ingestion > Create a new batch in Catalog Service.

  4. 将以下内容粘贴为 正文 请求, 将datasetId值替换为您自己的:

    {
        "datasetId":"REPLACE_WITH_YOUR_OWN_DATASETID",
        "inputFormat": {
            "format": "json"
        }
    }
    
  5. 选择 发送 按钮

  6. 您应会收到一个201 Created响应,其中包含新批次的ID!

  7. 复制 id 新批的
    批次创建

摄取数据

现在,我们可以将数据上传到批处理:

  1. 选择请求 Data Ingestion API > Batch Ingestion > Upload a file to a dataset in a batch.

  2. 参数 选项卡,在相应的字段中输入数据集id和批处理id

  3. 参数 ,输入 luma-crm.json 作为 filePath

  4. 正文 选项卡,选择 二进制 选项

  5. 选择下载的 luma-crm.json 从本地 Luma Tutorial Assets 文件夹

  6. 选择 发送 而且您应会在响应主体中得到一个包含“1”的200 OK响应

    上载数据

此时,如果您在Platform用户界面中查看批处理,您会看到它位于“正在加载"状态:
批量加载

由于批处理API通常用于上传多个文件,因此您需要告知平台批次何时完成,我们将在下一步中执行该操作。

完成批处理

要完成批,请执行以下操作:

  1. 选择请求 Data Ingestion API > Batch Ingestion > Finish uploading a file to a dataset in a batch.

  2. 参数 ,输入 COMPLETE 作为 操作

  3. 参数 选项卡,输入批ID。 如果存在数据集id或filePath,则不要担心它们。

  4. 确保POST的URL为 https://platform.adobe.io/data/foundation/import/batches/:batchId?action=COMPLETE 而且没有任何不必要的 datasetIdfilePath

  5. 选择 发送 而且您应会在响应主体中得到一个包含“1”的200 OK响应

    批量完成

验证数据

在Platform用户界面中验证

验证数据是否已登录到Platform用户界面,就像您对Loyaty数据集所做的一样。

首先,确认批次显示已摄取1000条记录:

批量成功

接下来,使用“预览”数据集确认批次:

批量预览

最后,通过查找 Luma CRM Id 命名空间,例如 112ca06ed53d3db37e4cea49cc45b71e

摄取的用户档案

有件有趣的事情,我想指出。 打开 Danny Wright 配置文件。 用户档案的 LumacrmidLumaloyaltyid. 记住 Luma Loyalty Schema 包含两个标识字段,即Luma忠诚度ID和CRM ID。 现在,我们已上传这两个数据集,它们已合并到单个用户档案中。 忠诚度数据 Daniel 名称和“纽约市”作为主地址,而CRM数据已 Danny 作为名字和 Portland 作为具有相同忠诚度ID的客户的主页地址。 我们会回到名字显示的原因 Danny 中有关合并策略的课程。

恭喜,您刚刚合并了用户档案!

合并的配置文件

使用数据摄取事件进行验证

如果您订阅了上一课程中的数据摄取事件,请检查您唯一的webhook.site URL。 此时,您应会看到有三个请求出现,就像会员数据一样:

数据摄取WebHook

请参阅 文档 以了解有关通知的更多详细信息。

使用工作流摄取数据

让我们看看另一种上传数据的方式。 工作流功能允许您摄取尚未在XDM中建模的CSV数据。

下载并准备数据

  1. 您应该已经下载并解压 luma-data.zipLuma Tutorial Assets 文件夹。
  2. 确认您已luma-products.csv

创建工作流

现在,让我们设置工作流:

  1. 转到 工作流 在左侧导航中
  2. 选择 将CSV映射到XDM架构 ,然后选择 Launch 按钮
    启动工作流
  3. 选择 Luma Product Catalog Dataset ,然后选择 下一个 按钮
    选择您的数据集
  4. 添加 luma-products.csv 下载的文件,然后选择 下一个 按钮
    选择您的数据集
  5. 现在,您位于映射器界面中,在该界面中,可以从源数据( luma-products.csv 文件)到目标架构中的XDM字段。 在我们的示例中,列名称与架构字段名称足够接近,映射器能够自动检测右侧映射! 如果映射器无法自动检测右侧字段,则可以选择目标字段右侧的图标以选择正确的XDM字段。 此外,如果您不想从CSV中摄取其中一个列,则可以从映射器中删除该行。 您可以随时在 luma-products.csv 以了解映射器的工作方式。
  6. 选择 完成 按钮
    选择您的数据集

验证数据

上传批量后,通过预览数据集来验证上传情况。

Luma Product SKU 是非人员命名空间,我们看不到产品SKU的任何用户档案。

您应会看到网页钩的三次点击。

使用源摄取数据

好吧,你做的很艰难。 现在,让我们进入到 自动化 批量摄取! 当我说,“设置!” 你说,"别管它!" “设置!” “算了吧!” “设置!” “算了吧!” 开玩笑的,你绝不会做这种事! 好,回去工作。 你快完蛋了。

转到 在左侧导航中打开源目录。 在此,您将看到与业界领先的数据和存储提供商的各种现成集成。

源目录

好,让我们使用源连接器摄取数据。

这项练习将是您自己选择的冒险风格。 我将使用FTP源连接器显示工作流。 您可以使用您在公司中使用的其他云存储源连接器,也可以使用与忠诚度数据一样的数据集用户界面上传json文件。

许多源都具有类似的配置工作流,在该工作流中,您可以:

  1. 输入您的身份验证详细信息
  2. 选择要摄取的数据
  3. 选择要将其摄取到的Platform数据集
  4. 将字段映射到XDM架构
  5. 选择要从该位置提取数据的频率
注意

我们将在本练习中使用的离线购买数据包含日期时间数据。 日期时间数据应位于 ISO 8061格式化字符串 ("2018-07-10T15":05:59.000-08:00")或Unix时间(以毫秒为格式)(1531263959000),在摄取时将转换为目标XDM类型。 有关数据转换和其他限制的更多信息,请参阅 批量摄取API文档.

下载、准备数据并将数据上传到首选的云存储供应商

  1. 您应该已经下载并解压 luma-data.zipLuma Tutorial Assets 文件夹。
  2. 打开 luma-offline-purchases.json ,并替换 _techmarketingdemos ,如您的架构中所示
  3. 选择首选的云存储提供商,确保该提供商位于 源 目录
  4. 上传 luma-offline-purchases.json 到首选云存储提供商中的位置

将数据摄取到首选的云存储位置

  1. 在Platform用户界面中,过滤 源 目录 云存储

  2. 请注意, ...

  3. 在首选云存储供应商的框中,选择 配置 按钮
    选择配置

  4. 身份验证 是第一步。 例如,输入帐户的名称 Luma's FTP Account 和您的身份验证详细信息。 对于所有云存储源,此步骤应该相当相似,不过字段可能略有不同。 在输入了帐户的身份验证详细信息后,您便可以将其重复用于其他源连接,这些源连接可能会与同一帐户中的其他文件在不同的计划上发送不同的数据

  5. 选择 “连接到源”按钮

  6. 当平台成功连接到源时,选择 下一个 按钮
    对源进行身份验证

  7. 选择数据 步骤中,用户界面将使用您的凭据打开云存储解决方案上的文件夹

  8. 例如,选择要摄取的文件 luma-offline-purchases.json

  9. 作为 数据格式,选择 XDM JSON

  10. 然后,您可以预览文件中的json结构和示例数据

  11. 选择 下一个 按钮
    选择您的数据文件

  12. 映射 步骤,选择 Luma Offline Purchase Events Dataset ,然后选择 下一个 按钮。 消息中请注意,由于我们摄取的数据是JSON文件,因此没有映射步骤,我们将源字段映射到目标字段。 JSON数据必须已在XDM中。 如果您摄取的是CSV,则会在此步骤中看到完整映射用户界面:
    选择您的数据集

  13. 计划 步骤中,选择要从源中提取数据的频率。 请花些时间查看选项。 我们只是要进行一次性摄取,请将 频率 on 一次 ,然后选择 下一个 按钮:
    计划数据流

  14. 数据流详细信息 步骤中,您可以为数据流选择名称、输入可选描述、打开错误诊断和部分摄取。 保留设置原样,然后选择 下一个 按钮:
    编辑数据流的详细信息

  15. 审阅 步骤中,您可以一起查看所有设置,然后对其进行编辑或选择 完成 按钮

  16. 保存后,您会在屏幕上看到如下内容:
    完成

验证数据

上传批量后,通过预览数据集来验证上传情况。

您应会看到网页钩的三次点击。

查找具有值的用户档案 5625458loyaltyId 命名空间,以查看其配置文件中是否存在任何购买事件。 您应会看到一次购买。 您可以通过选择 查看JSON:

用户档案中的购买事件

ETL工具

Adobe与多个ETL供应商合作,以支持将数据摄取到Experience Platform中。 由于第三方供应商种类繁多,因此本教程中未介绍ETL,不过欢迎您查看以下一些资源:

其他资源

现在,让我们 使用Web SDK流数据

在此页面上