Customer Data Feeds

有关Customer Data Feed (CDF)文件的基本信息以及如何开始的说明。 开始此处,如果您对接收CDF文件感兴趣或只想了解更多信息。

文件内容和用途

CDF 文件包含的数据与 Audience Manager 事件调用 (/event) 发送到我们服务器的数据相同。这包括诸如用户ID、trait IDs、segment IDs等数据,以及事件调用捕获的所有其他参数。 内部Audience Manager系统将事件数据处理为CDF文件,内容组织为按设置顺序显示的字段。 Audience Manager 尝试每小时生 CDF 成一个文件,并将它们存储在服务器上一个安全、特定于客户的存储 Amazon S3 桶中。我们提供这些文件,以便您能够处理超出我们用户界面限制的Audience Manager数据。

重要

处理CDF文件时请注意以下限制:

  • 在设置CDF文件投放之前,请确保您具有第三方数据提供商对导出第三方特征的适当权限。 Audience Manager当前不支持用户界面中向第三方数据提供商请求CDF文件投放导出权限的功能,因此请单独联系他们。
  • 您不应将CDF文件用作监视页面流量、调节报告差异或计费等的代理。

快速入门

没有自助进程来开始CDF文件投放。 请联系您的Audience Manager顾问或客户关怀以开始。 在实施过程中,您的Audience Manager代表将:

  • 设置Amazon S3存储存储桶。
  • 为文件存储存储段提供只读S3身份验证凭据。 您将无法查看或访问属于其他客户的目录和文件。

文件通知和CDF文件将在S3存储桶中显示,当它们准备好下载时。 您负责从分配的S3目录监视和下载文件。 请参阅客户数据信息源文件处理通知

后续步骤

以下各节和客户数据馈送常见问题解答可以帮助您更熟悉此服务。

Customer Data Feed 内容已定义

列表和定义CDF文件中的数据元素和数组,按外观顺序排列。 定义包括数据类型,但此信息不是CDF文件的一部分。

定义

CDF文件包括下面定义的部分或全部字段。 有关内部文件组织的信息,请参阅客户数据馈送文件结构

字段 数据类型 描述

Event Time

时间戳

数据收集服务器(DCS)处理CDF文件的时间。 时间戳使用yyyy-mm-dd hh:mm:ss格式,以UTC时区设置。

注意:事件时间:

Device

字符串

这是唯一用户ID(UUID),它是站点访客的38位设备ID。 另请参阅 Audience Manager 中的 ID 索引

Container ID

数值

触发ID的容器的ID同步。

Realized Traits

数组

一组特征ID,包含访客在事件调用中实现(合格)的所有特征。

请注意,该数组可包含访客之前已限定的特征,以及通过此事件调用重新限定的特征。

Realized Segments

数组

一组段ID,包含访客在事件调用中实现(符合条件)的所有段。

Request Parameters

字符串

捕获所有参数(变量、ID、键值对、设备广告ID等)的字符串 在事件电话上过。

缩短示例:

d_rtbd:json,c_contextData.a.CarrierName:mobile,c_contextData.a.adid:92D56353-49C5-431E-B474-FC528D585810,c_contextData.a,RunMode:Application,c_contextData.a.DaysSinceLastUpgrade:61,d_cid_ic:xid%01EACB6E40-AC65-4012-9FE9-ABD59965E9C4%011,c_contextData.a.PrevSessionLength:583

Referer Data Type

字符串

引用页面的未编码URL(如果有)。

IP Data Type

字符串

在访客调用中捕获的事件的IP地址。

MCDevice

字符串

分配给站点Experience Cloud的访客 ID(MID)。 另请参阅 Cookies和AdobeExperience Platform身份服务

All Segments

数组

一组段ID,包含访客符合的先前实现的段和新段。

All Traits

数组

一组第一方和第三方特征ID,它包含访客自上次生成的数据源以来限定的先前实现的特征和新特征。

Customer Data Feed 文件结构

列表并定义CDF文件的数据结构。 这包括数据序列、字段分隔符和分隔符、数据文件映射和示例文件。

数据字段标识符和序列

CDF 文件不包含标记的列或字段标题。相反,CDF文件定义具有非打印字符ASCII的字段和数组。 此外,CDF文件按特定顺序列表每个字段和数组。 了解字段标识符和顺序将有助于您正确分析文件。

CDF文件元素 描述

字段分隔符和分隔符

这些非打印字符定义了CDF文件的元素和结构:

  • Ctrl + a(ASCII 001 ^A)使用非打印空间指示符分隔各个字段中的数据。
  • Ctrl + b(ASCII 002 ^B)将数据与数组和请求参数相分离。
  • Ctrl + c(ASCII 003 ^C)定义键值对。

字段序列

重要:Audience Manager保留在未来版本中向CDF文件末尾添加新字段的权利。 这意味着文件分析系统的技术设计不应采用固定数量的列(尽管它可能采用固定的现有列顺序)。

CDF文件中的数据按以下顺序显示。

  1. 事件时间
  2. 设备
  3. 容器 ID
  4. 已实现特征
  5. 已实现细分
  6. 请求参数
  7. Referer
  8. IP 地址
  9. Experience Cloud设备ID(或MID)。 另请参阅 Cookies和Adobe Experience Platform标识服务
  10. 所有细分
  11. 所有特征

有关字段说明,请参阅定义的客户数据馈送内容

CDF 文件映射

CDF 文件数据按如下所示的顺序显示。

识别阵列

CDF文件开始中的数组以Ctrl + a字段分隔符结尾。 这使数组中的第一个元素看起来就像独立数据字段。 例如,已实现traits阵列开始(带有^A1234)。 数组分隔符和ID ^B5678位于此条目后面。 因此,您可能会想到已实现traits数组中的第一个元素是ID 5678(因为它与^B开始)。 但情况并非如此,因此您需要熟悉数据文件的顺序和结构。 即使实现的trait数组(或CDF文件中的任何其他数组)中的第一个元素具有^A开始,该文件中的外观或位置顺序也定义了数组的开始。 并且,数组中的第一个元素始终以^A与前一个条目分隔。

示例CDF文件

示例CDF文件可能与以下内容类似。 我们已在此示例中插入换行符,以帮助它适合页面。

Customer Data Feed 文件命名约定

以下各节列表并定义CDF文件名中的元素。

CDF 文件名:语法和示例

典型的CDF文件名包含下面列出的元素。 注意,斜体​表示变量占位符:

语法

s3://aam-cdf/YOUR-S3-BUCKET-NAME/day=yyyy-mm-dd/hour=hh/AAM-CDF-PARTNER-ID-AAM PROCESS-ID_0.gz

示例

s3://aam-cdf/dataCompany/day=2017-09-14/hour=17/AAM_CDF_1234_000058_0.gz

在S3存储存储段中,文件按合作伙伴ID(PID)、天和小时的升序排序。

CDF 文件名元素已定义

下表列表并定义CDF文件名中的元素。

文件名元素 描述

s3://aam-cdf/

这是AmazonS3服务器上CDF文件的默认根存储存储段。

your S3 bucket name

只读存储段的名称,保存CDF文件的S3存储段。

day=yyyy-mm-dd

文件的处理日期。

hour=hh

以24小时记号表示的时间值,在UTC时区中设置。 另请参阅客户数据馈送文件名时间和文件内容时间……

partner ID

您的合作伙伴ID。

AAM process ID_0

内部Audience Manager进程ID。

.gz

gzip文件扩展名。 CDF文件压缩为gzip。

Customer Data Feed 文件处理通知

Audience Manager 将文 .info 件写入 S3 目录,以便在() Customer Data File 准备下载时CDF通知您。.info文件还包含有关CDF文件内容的JSON格式化元数据。 有关此通知文件使用的语法和字段的信息,请查阅本节。

示例信息文件

每个.info文件都包含FilesTotals部分。 Files部分包含一个数组,其中包含每个小时文件的特定度量。 Totals部分包含特定日期所有CDF文件中汇总的度量。 .info文件的内容可能与以下示例类似。

{
    "Files": [
        {
            "FileByteSize": 2709730,
            "FileChecksumMD5": "a9ea418e79511642cff11c2a898037dc-1",
            "FileName": "AAM_CDF_1109_000000_0.gz",
            "FileSequenceNumber": 1
        },
        {
            "FileByteSize": 2783351,
            "FileChecksumMD5": "7b469485d60274b6991acd0817855840-3",
            "FileName": "AAM_CDF_1109_000001_0.gz",
            "FileSequenceNumber": 2
        }
    ],
    "Totals": {
        "Day": "2017-09-26",
        "Hour": "18",
        "TotalByteSize": 150092997,
        "TotalNumberFiles": 2
    }
}

定义的信息文件字段

下表列表并定义CDF .info文件中的元素。

文件对象

字段 描述

Files

开始包含有关CDF文件的元数据的数组。

FileByteSize

文件大小(字节)。

FileChecksumMD5

AmazonS3 ETag。 连字符后的数字显示在多部件上传期间用于构建文件的部件数量。 ETag与文件的MD5校验和不相同。

FileName

文件名。 请参阅客户数据源文件命名约定

FileSequenceNumber

每个文件的索引编号。

总计对象

字段 描述

Totals

开始包含所有CDF文件的聚合数据的对象。

Day

数据可用的日期。 使用yyyy-mm-dd格式。

Hour

可用数据的小时数。 使用UTC时区中设置的24小时格式。

TotalByteSize

该日期所有CDF文件的总大小(以字节为单位)。

TotalNumberFiles

上载到S3目录的文件总数。

Customer Data Feed 文件名时间和文件内容时间不同

您的CDF文件包含文件名和文件内容中的时间戳。 这些时间戳记录同一CDF文件的不同事件进程。 在同一文件的名称和内容中看到不同的时间戳并不少见。 了解每个时间戳可以帮助您避免在处理此数据或尝试按时间排序时出现的常见错误。

查找CDF文件时间戳

CDF 文件在两个不同位置记录的时间不同。

了解时间戳之间的差异

下表提供了有关CDF文件时间戳的其他详细信息以及如何正确使用它们的信息。

时间戳位置 描述
文件名 CDF文件名中的时间戳标记Audience Manager开始准备文件进行投放的时间。 此时间戳在UTC时区中设置。 它使用hour=参数,时间格式设置为2位数小时(以24小时表示)。 此时间可以与文件内容中记录的事件时间不同。 处理CDF文件时,有时您会注意到您的S3存储桶在特定小时内为空。 空桶装置可以表示以下任一情况:
  • 那个小时没有数据。
  • 我们的服务器负载很重,无法处理特定小时的文件。 当服务器启动时,它将本应放在较早时段的文件放入具有稍后时间值的时段中。 例如,当18小时存储段中出现本应位于17小时存储段的文件(文件名中带有hour=18)时,您会看到这一点。 在这种情况下,服务器可能在17小时内开始处理您的文件,但无法在该时间间隔内完成它。 相反,文件将推送到下一个小时时段。

重要说明:请勿使用文件名时间戳按时间对事件分组。如果需要按时间分组,请使用文件内容中的EventTime时间戳。
文件内容 CDF文件内容中的时间戳标记Data Collection Servers开始处理文件的时间。 此时间戳在UTC时区中设置。 它使用EventTime字段,时间格式为​yyyy-mm-dd hh:mm:ss。 此时间接近页面上事件的实际时间,但可能与文件名中的小时指示符不同。
提示:与文件 hour= 名中的时间戳不同,您可以 EventTime 按时间对数据分组。

在此页面上