数据引入概述
- 主题:
- 数据摄入
创建对象:
- 开发人员
在Adobe Experience Platform中,数据摄取是指将数据从分类来源传输到存储介质中,以供组织访问、使用和分析。 Experience Platform中的数据摄取可以分为两个主要类别:流式摄取 和 批量摄取。
在流式摄取和批量摄取下,您可以使用多种方法将数据摄取到Experience Platform。 这些方法包括使用各种 源 并连接到这些源将数据导入Experience Platform。
请阅读本文档,了解将数据摄取到Experience Platform的多种不同方式。
流式摄取
您可以使用流式摄取将数据从客户端和服务器端设备实时发送到Experience Platform。 Experience Platform支持使用数据入口来流式传输传入体验数据,该数据会保留在数据湖内启用流式传输的数据集中。 可将数据入口配置为自动验证其收集的数据,确保数据来自可信来源。
有关详细信息,请阅读流式摄取概述。
批量摄取
在Experience Platform中,批次是指一段时间内收集并作为单个单元处理的一组数据。 数据集由批量组成。 您可以使用批量摄取将数据作为批处理文件接入Experience Platform。 摄取后,批量会提供元数据以描述已成功摄取的记录数,以及任何失败记录和关联的错误消息。
必须使用此方法摄取手动上传的数据文件,如映射到XDM架构的平面CSV文件和parquet文件。
有关详细信息,请阅读批次摄取概述。
源
您还可以通过连接到Experience Platform Sources来摄取数据。 Experience Platform维护着各种不同数据源的目录,您可以连接到这些数据源并从其中摄取数据。 这些源可以是本机Adobe应用程序,例如Adobe Analytics源或Marketo Engage源。 您还可以连接到第三方源,如Amazon S3源和Google Cloud Storage源。
源分为不同的类别,如云存储、数据库和CRM系统。 给定的源可能支持批量摄取或流式摄取。
通过源,您可以从多种不同的数据源和各种不同的用例类别中摄取数据。 此外,通过源进行数据摄取使您能够针对外部数据源进行身份验证、配置摄取计划并管理摄取吞吐量。
有关详细信息,请阅读源概述。
ML辅助模式创建
为了快速集成新数据源,您现在可以使用机器学习算法从示例数据生成架构。 此自动化可简化准确架构的创建,减少错误,并加快从数据收集到分析和洞察的进程。
有关此工作流的详细信息,请参阅ML辅助模式创建指南。
数据准备
虽然数据准备不是一种引入方法,但它却是数据引入过程的重要组成部分。 在创建数据流以将数据摄取到Experience Platform之前,使用数据准备函数映射、转换和验证数据到Experience Data Model (XDM)以及从中获取数据。 在数据摄取过程中,数据准备在Experience Platform用户界面中显示为“映射”步骤。
有关详细信息,请阅读数据准备概述。
流式摄取方法
下表概述了可用于将流数据摄取到Experience Platform的各种方法。
流源 | |||
方法 | 常见用例 | 协议 | 注意事项 |
Adobe Web/移动SDK |
| 推送、HTTP、JSON |
|
HTTP API连接器 |
| 推送、REST API、JSON |
|
Edge Network API |
| 推送、REST API、JSON |
|
Adobe应用程序 |
| 推送、Source连接器和API |
|
流源 |
| 推送、REST API、JSON |
|
| 推送、HTTP API、JSON |
|
批量摄取方法
下表概述了可用于将批量数据摄取到Experience Platform的各种方法。
批次源 | |||
方法 | 常见用例 | 协议 | 注意事项 |
批量摄取API |
| 推送、JSON或Parquet |
|
批次源 |
| 提取、CSV、JSON、Parquet |
|
数据登陆区 |
| 推送、CSV、JSON、Parquet |
|
批量源SDK |
| Pull、REST API、CSV或JSON |
|
后续步骤和其他资源
本文档简要介绍了Experience Platform中Data Ingestion的各个方面。 请继续阅读每种摄取方法的概述文档,以熟悉其不同的功能、用例和最佳实践。 您还可以通过观看下方的摄取概述视频来补充学习。 有关Experience Platform如何跟踪所摄取记录的元数据的信息,请参阅目录服务概述。