数据引入概述

在Adobe Experience Platform中,数据摄取是指将数据从分类来源传输到存储介质中,以供组织访问、使用和分析。 Experience Platform中的数据摄取可以分为两个主要类别:流式摄取 ​和​ 批量摄取

在流式摄取和批量摄取下,您可以使用多种方法将数据摄取到Experience Platform。 这些方法包括使用各种​ ​并连接到这些源将数据导入Experience Platform。

请阅读本文档,了解将数据摄取到Experience Platform的多种不同方式。

流式摄取 streaming

您可以使用流式摄取将数据从客户端和服务器端设备实时发送到Experience Platform。 Experience Platform支持使用数据入口来流式传输传入体验数据,该数据会保留在数据湖内启用流式传输的数据集中。 可将数据入口配置为自动验证其收集的数据,确保数据来自可信来源。

有关详细信息,请阅读流式摄取概述

批量摄取 batch

在Experience Platform中,批次是指一段时间内收集并作为单个单元处理的一组数据。 数据集由批量组成。 您可以使用批量摄取将数据作为批处理文件接入Experience Platform。 摄取后,批量会提供元数据以描述已成功摄取的记录数,以及任何失败记录和关联的错误消息。

必须使用此方法摄取手动上传的数据文件,如映射到XDM架构的平面CSV文件和parquet文件。

有关详细信息,请阅读批次摄取概述

sources

您还可以通过连接到Experience Platform Sources来摄取数据。 Experience Platform维护着各种不同数据源的目录,您可以连接到这些数据源并从其中摄取数据。 这些源可以是本机Adobe应用程序,例如Adobe Analytics源或Marketo Engage源。 您还可以连接到第三方源,如Amazon S3源和Google Cloud Storage源。

源分为不同的类别,如云存储、数据库和CRM系统。 给定的源可能支持批量摄取或流式摄取。

通过源,您可以从多种不同的数据源和各种不同的用例类别中摄取数据。 此外,通过源进行数据摄取使您能够针对外部数据源进行身份验证、配置摄取计划并管理摄取吞吐量。

有关详细信息,请阅读源概述

ML辅助模式创建 ml-assisted-schema-creation

为了快速集成新数据源,您现在可以使用机器学习算法从示例数据生成架构。 此自动化可简化准确架构的创建,减少错误,并加快从数据收集到分析和洞察的进程。

有关此工作流的详细信息,请参阅ML辅助模式创建指南

数据准备 data-prep

虽然数据准备不是一种引入方法,但它却是数据引入过程的重要组成部分。 在创建数据流以将数据摄取到Experience Platform之前,使用数据准备函数映射、转换和验证数据到Experience Data Model (XDM)以及从中获取数据。 在数据摄取过程中,数据准备在Experience Platform用户界面中显示为“映射”步骤。

有关详细信息,请阅读数据准备概述

流式摄取方法 streaming-ingestion-methods

下表概述了可用于将流数据摄取到Experience Platform的各种方法。

流源
方法
常见用例
协议
注意事项
Adobe Web/移动SDK
  • 从网站和移动应用程序收集数据。
  • 客户端收集的首选方法。
推送、HTTP、JSON
  • 利用单个SDK实施多个Adobe应用程序。
HTTP API连接器
  • 从流源、交易、相关客户事件和信号收集。
推送、REST API、JSON
  • 原始数据或XDM数据直接流式传输到网络中心,无实时Edge分段或事件转发。
Edge Network API
  • 来自全局分布的Edge Network的流源、交易、相关客户事件和信号的收集。
推送、REST API、JSON
  • 数据通过Edge Network流式传输。 在Edge上支持实时分段和事件转发。
Adobe应用程序
  • 从Adobe Analytics、Marketo Engage、Adobe Campaign Managed Services、Adobe Target、Adobe Audience Manager等应用程序引入数据
推送、Source连接器和API
  • 推荐的方法是迁移到Web/Mobile SDK,而不是使用传统的应用程序SDK。
流源
  • 企业事件流的摄取,通常用于将企业数据共享到多个下游应用程序。
推送、REST API、JSON
  • 数据以JSON格式进行流式处理,并可映射到XDM架构。

流源SDK

  • 使用自助源流式传输SDK的自助服务功能将您自己的数据源集成到Experience Platform源目录。
推送、HTTP API、JSON
  • 合作伙伴集成的流源的示例包括:Braze、Pendo和RainFocus。

批量摄取方法 batch-ingestion-methods

下表概述了可用于将批量数据摄取到Experience Platform的各种方法。

批次源
方法
常见用例
协议
注意事项
批量摄取API
  • 从企业管理的队列中引入。 如果您的数据需要在摄取之前进行准备和格式化,请使用批量摄取。
推送、JSON或Parquet
  • 必须管理用于摄取的批次和文件。
批次源
  • 从云存储、CRM和营销自动化应用程序中摄取数据的常用方法。
  • 非常适用于摄取大量历史数据。
提取、CSV、JSON、Parquet
  • Source摄取基于预配置的计划时间间隔。
数据登陆区
  • Adobe配置的基于云的文件存储。 您有权访问每个沙盒的一个数据登陆区容器。
  • 将文件推送到数据登陆区,以便稍后摄取到Experience Platform中。
推送、CSV、JSON、Parquet
  • Experience Platform对上传到Data Landing Zone容器的所有文件和文件夹强制实施严格的七天过期时间。 所有文件和文件夹都会在七天后删除。
批量源SDK
  • 使用自助源批处理SDK的自助服务功能将您自己的数据源集成到Experience Platform源目录。
  • 非常适合合作伙伴连接器或针对设置企业连接器而量身定制的工作流体验。
Pull、REST API、CSV或JSON
  • 合作伙伴集成的批处理源的示例包括:Mailchimp、OneTrust、Zendesk

后续步骤和其他资源

本文档简要介绍了Experience Platform中Data Ingestion的各个方面。 请继续阅读每种摄取方法的概述文档,以熟悉其不同的功能、用例和最佳实践。 您还可以通过观看下方的摄取概述视频来补充学习。 有关Experience Platform如何跟踪所摄取记录的元数据的信息,请参阅目录服务概述

WARNING
以下视频中使用的“统一配置文件”一词已过期。 术语"Profile"或"Real-Time Customer Profile"是Experience Platform文档中使用的正确术语。 请参阅文档以了解最新功能。
recommendation-more-help
2ee14710-6ba4-4feb-9f79-0aad73102a9a