有关Customer Data Feed (CDF)文件的基本信息以及如何开始的说明。 开始此处,如果您对接收CDF文件感兴趣或只想了解更多信息。
CDF 文件包含的数据与 Audience Manager 事件调用 (/event
) 发送到我们服务器的数据相同。这包括诸如用户ID、trait IDs、segment IDs等数据,以及事件调用捕获的所有其他参数。 内部Audience Manager系统将事件数据处理为CDF文件,内容组织为按设置顺序显示的字段。 Audience Manager 尝试每小时生 CDF 成一个文件,并将它们存储在服务器上一个安全、特定于客户的存储 Amazon S3 桶中。我们提供这些文件,以便您能够处理超出我们用户界面限制的Audience Manager数据。
处理CDF文件时请注意以下限制:
没有自助进程来开始CDF文件投放。 请联系您的Audience Manager顾问或客户关怀以开始。 在实施过程中,您的Audience Manager代表将:
文件通知和CDF文件将在S3存储桶中显示,当它们准备好下载时。 您负责从分配的S3目录监视和下载文件。 请参阅客户数据信息源文件处理通知。
以下各节和客户数据馈送常见问题解答可以帮助您更熟悉此服务。
列表和定义CDF文件中的数据元素和数组,按外观顺序排列。 定义包括数据类型,但此信息不是CDF文件的一部分。
CDF文件包括下面定义的部分或全部字段。 有关内部文件组织的信息,请参阅客户数据馈送文件结构。
字段 | 数据类型 | 描述 |
---|---|---|
|
时间戳 |
数据收集服务器(DCS)处理CDF文件的时间。 时间戳使用yyyy-mm-dd hh:mm:ss格式,以UTC时区设置。
注意:事件时间不:
|
|
字符串 |
这是唯一用户ID(UUID),它是站点访客的38位设备ID。 另请参阅 Audience Manager 中的 ID 索引。 |
|
数值 |
触发ID的容器的ID同步。 |
|
数组 |
一组特征ID,包含访客在事件调用中实现(合格)的所有特征。 请注意,该数组可包含访客之前已限定的特征,以及通过此事件调用重新限定的特征。 |
|
数组 |
一组段ID,包含访客在事件调用中实现(符合条件)的所有段。 |
|
字符串 |
捕获所有参数(变量、ID、键值对、设备广告ID等)的字符串 在事件电话上过。 缩短示例: |
|
字符串 |
引用页面的未编码URL(如果有)。 |
|
字符串 |
在访客调用中捕获的事件的IP地址。 |
|
字符串 |
分配给站点Experience Cloud的访客 ID(MID)。 另请参阅 Cookies和AdobeExperience Platform身份服务。 |
|
数组 |
一组段ID,包含访客符合的先前实现的段和新段。 |
|
数组 |
一组第一方和第三方特征ID,它包含访客自上次生成的数据源以来限定的先前实现的特征和新特征。 |
列表并定义CDF文件的数据结构。 这包括数据序列、字段分隔符和分隔符、数据文件映射和示例文件。
CDF 文件不包含标记的列或字段标题。相反,CDF文件定义具有非打印字符ASCII的字段和数组。 此外,CDF文件按特定顺序列表每个字段和数组。 了解字段标识符和顺序将有助于您正确分析文件。
CDF文件元素 | 描述 |
---|---|
字段分隔符和分隔符 |
这些非打印字符定义了CDF文件的元素和结构:
|
字段序列 |
重要:Audience Manager保留在未来版本中向CDF文件末尾添加新字段的权利。 这意味着文件分析系统的技术设计不应采用固定数量的列(尽管它可能采用固定的现有列顺序)。 CDF文件中的数据按以下顺序显示。
有关字段说明,请参阅定义的客户数据馈送内容。 |
CDF 文件数据按如下所示的顺序显示。
CDF文件开始中的数组以Ctrl + a
字段分隔符结尾。 这使数组中的第一个元素看起来就像独立数据字段。 例如,已实现traits阵列开始(带有^A1234
)。 数组分隔符和ID ^B5678
位于此条目后面。 因此,您可能会想到已实现traits数组中的第一个元素是ID 5678(因为它与^B
开始)。 但情况并非如此,因此您需要熟悉数据文件的顺序和结构。 即使实现的trait数组(或CDF文件中的任何其他数组)中的第一个元素具有^A
开始,该文件中的外观或位置顺序也定义了数组的开始。 并且,数组中的第一个元素始终以^A
与前一个条目分隔。
示例CDF文件可能与以下内容类似。 我们已在此示例中插入换行符,以帮助它适合页面。
以下各节列表并定义CDF文件名中的元素。
典型的CDF文件名包含下面列出的元素。 注意,斜体表示变量占位符:
s3://aam-cdf/YOUR-S3-BUCKET-NAME/day=yyyy-mm-dd/hour=hh/AAM-CDF-PARTNER-ID-AAM PROCESS-ID_0.gz
s3://aam-cdf/dataCompany/day=2017-09-14/hour=17/AAM_CDF_1234_000058_0.gz
在S3存储存储段中,文件按合作伙伴ID(PID)、天和小时的升序排序。
下表列表并定义CDF文件名中的元素。
文件名元素 | 描述 |
---|---|
|
这是AmazonS3服务器上CDF文件的默认根存储存储段。 |
|
只读存储段的名称,保存CDF文件的S3存储段。 |
|
文件的处理日期。 |
|
以24小时记号表示的时间值,在UTC时区中设置。 另请参阅客户数据馈送文件名时间和文件内容时间……。 |
|
您的合作伙伴ID。 |
|
内部Audience Manager进程ID。 |
|
gzip文件扩展名。 CDF文件压缩为gzip。 |
Audience Manager 将文 .info
件写入 S3 目录,以便在() Customer Data File 准备下载时CDF通知您。.info
文件还包含有关CDF文件内容的JSON格式化元数据。 有关此通知文件使用的语法和字段的信息,请查阅本节。
每个.info
文件都包含Files
和Totals
部分。 Files
部分包含一个数组,其中包含每个小时文件的特定度量。 Totals
部分包含特定日期所有CDF文件中汇总的度量。 .info
文件的内容可能与以下示例类似。
{
"Files": [
{
"FileByteSize": 2709730,
"FileChecksumMD5": "a9ea418e79511642cff11c2a898037dc-1",
"FileName": "AAM_CDF_1109_000000_0.gz",
"FileSequenceNumber": 1
},
{
"FileByteSize": 2783351,
"FileChecksumMD5": "7b469485d60274b6991acd0817855840-3",
"FileName": "AAM_CDF_1109_000001_0.gz",
"FileSequenceNumber": 2
}
],
"Totals": {
"Day": "2017-09-26",
"Hour": "18",
"TotalByteSize": 150092997,
"TotalNumberFiles": 2
}
}
下表列表并定义CDF .info
文件中的元素。
字段 | 描述 |
---|---|
|
开始包含有关CDF文件的元数据的数组。 |
|
文件大小(字节)。 |
|
AmazonS3 ETag。 连字符后的数字显示在多部件上传期间用于构建文件的部件数量。 |
|
文件名。 请参阅客户数据源文件命名约定。 |
|
每个文件的索引编号。 |
字段 | 描述 |
---|---|
|
开始包含所有CDF文件的聚合数据的对象。 |
|
数据可用的日期。 使用yyyy-mm-dd格式。 |
|
可用数据的小时数。 使用UTC时区中设置的24小时格式。 |
|
该日期所有CDF文件的总大小(以字节为单位)。 |
|
上载到S3目录的文件总数。 |
您的CDF文件包含文件名和文件内容中的时间戳。 这些时间戳记录同一CDF文件的不同事件进程。 在同一文件的名称和内容中看到不同的时间戳并不少见。 了解每个时间戳可以帮助您避免在处理此数据或尝试按时间排序时出现的常见错误。
CDF 文件在两个不同位置记录的时间不同。
下表提供了有关CDF文件时间戳的其他详细信息以及如何正确使用它们的信息。
时间戳位置 | 描述 |
---|---|
文件名 | CDF文件名中的时间戳标记Audience Manager开始准备文件进行投放的时间。 此时间戳在UTC时区中设置。 它使用hour= 参数,时间格式设置为2位数小时(以24小时表示)。 此时间可以与文件内容中记录的事件时间不同。 处理CDF文件时,有时您会注意到您的S3存储桶在特定小时内为空。 空桶装置可以表示以下任一情况:
重要说明:请勿使用文件名时间戳按时间对事件分组。如果需要按时间分组,请使用文件内容中的 EventTime 时间戳。 |
文件内容 | CDF文件内容中的时间戳标记Data Collection Servers开始处理文件的时间。 此时间戳在UTC时区中设置。 它使用EventTime 字段,时间格式为yyyy-mm-dd hh:mm:ss 。 此时间接近页面上事件的实际时间,但可能与文件名中的小时指示符不同。提示:与文件 hour= 名中的时间戳不同,您可以 EventTime 按时间对数据分组。 |