Customer Data Feeds

有关Customer Data Feed (CDF)文件的基本信息以及如何开始的说明。 如果您希望接收CDF文件或仅希望获得更多信息,请从此处开始。

文件内容和用途

CDF 文件包含的数据与 Audience Manager 事件调用 (/event) 发送到我们服务器的数据相同。这包括用户ID、trait IDs、segment IDs以及事件调用捕获的所有其他参数等数据。 内部的Audience Manager系统将事件数据处理为一个CDF文件,其中内容按设置顺序组织为各个字段。 Audience Manager 会尝试每小时生 CDF 成一次文件,并将它们存储在服务器上特定于客户的安全存储段 Amazon S3 中。我们提供这些文件,以便您能够处理超出用户界面所规定限制的Audience Manager数据。

重要

使用CDF文件时请注意以下限制:

  • 在设置CDF文件交付之前,请确保您拥有第三方数据提供商的相应权限,以导出第三方特征。 Audience Manager当前不支持用户界面中向第三方数据提供商请求CDF文件交付导出权限的功能,因此请单独联系他们。
  • 您不应将CDF文件用作监视页面流量、协调报表差异或计费等的代理。

入门指南

没有启动CDF文件交付的自助流程。 请联系您的Audience Manager顾问或客户关怀团队以开始使用。 在实施过程中,您的Audience Manager代表将:

  • 设置Amazon S3存储段。
  • 为文件存储段提供只读S3身份验证凭据。 您将无法查看或访问属于其他客户的目录和文件。

文件通知和CDF文件在准备下载时将显示在S3存储桶中。 您负责从分配的S3目录中监控和下载文件。 请参阅客户数据信息源文件处理通知

后续步骤

以下部分和客户数据信息源常见问题解答可以帮助您更熟悉此服务。

Customer Data Feed 定义的内容

按外观顺序列出并定义CDF文件中的数据元素和数组。 定义包括数据类型,但此信息不属于CDF文件的一部分。

定义

CDF文件包含下面定义的部分或全部字段。 有关内部文件组织的信息,请参阅客户数据信息源文件结构

字段 数据类型 描述

Event Time

时间戳

数据收集服务器(DCS)处理CDF文件的时间。 时间戳使用yyyy-mm-dd hh:mm:ss格式,以UTC时区设置。

注意:事件时间:

Device

字符串

这是独特用户ID(UUID),即网站访客的38位设备ID。 另请参阅 Audience Manager 中的 ID 索引

Container ID

数值

触发ID同步的容器的ID。

Realized Traits

数值数组

一个特征ID数组,其中包含访客在事件调用中实现(符合条件)的所有特征。

请注意,数组可以包含访客之前符合条件的特征,以及通过此事件调用重新符合条件的特征。

Realized Segments

数值数组

区段ID数组,其中包含访客在事件调用中实现(符合条件)的所有区段。

Request Parameters

字符串

一个字符串,可捕获所有参数(变量、ID、键值对、设备广告ID等) 在事件调用中传递。

缩短示例:

d_rtbd:json,c_contextData.a.CarrierName:mobile,c_contextData.a.adid:92D56353-49C5-431E-B474-FC528D585810,c_contextData.a,RunMode:Application,c_contextData.a.DaysSinceLastUpgrade:61,d_cid_ic:xid%01EACB6E40-AC65-4012-9FE9-ABD59965E9C4%011,c_contextData.a.PrevSessionLength:583

Referer Data Type

字符串

引荐页面的未编码URL(如果有)。

IP Data Type

字符串

在事件调用中捕获的访客的IP地址。

MCDevice

字符串

分配给网站访客的Experience Cloud ID(MID)。 另请参阅 Cookie和AdobeExperience PlatformIdentity服务

All Segments

数值数组

一组区段ID,其中包含访客符合条件的先前实现的区段和新区段。

All Traits

数值数组

第一方和第三方特征ID的数组,其中包含访客自上次生成数据馈送以来符合条件的先前实现的特征和新特征。

Customer Data Feed 文件结构

列出并定义CDF文件的数据结构。 这包括数据序列、字段分隔符和分隔符、数据文件映射和样例文件。

数据字段标识符和序列

CDF 文件不包含标记列或字段标题。相反,CDF文件定义的字段和数组具有非打印的ASCII字符。 此外,CDF文件还按特定顺序列出了每个字段和数组。 了解字段标识符和顺序将帮助您正确解析文件。

CDF文件元素 描述

字段分隔符和分隔符

这些非打印字符定义CDF文件的元素和结构:

  • Ctrl + a(ASCII 001 ^A)使用非打印空间指示器分隔单个字段中的数据。
  • Ctrl + b(ASCII 002 ^B)可将数据与数组和请求参数分离。
  • Ctrl + c(ASCII 003 ^C)定义键值对。

字段序列

重要信息:Audience Manager保留在未来版本中向CDF文件末尾添加新字段的权限。 这意味着文件解析系统的技术设计不应假定列数固定(尽管它可能假定现有列的顺序固定)。

CDF文件中的数据按如下所示的顺序显示。

  1. 事件时间
  2. 设备
  3. 容器 ID
  4. 已实现的特征
  5. 实现的区段
  6. 请求参数
  7. Referer
  8. IP 地址
  9. Experience Cloud设备ID(或MID)。 另请参阅 Cookie和Adobe Experience Platform Identity服务
  10. 所有区段
  11. 所有特征

有关字段描述,请参阅定义的客户数据馈送内容

CDF 文件映射

CDF 文件数据按如下所示的顺序显示。

识别阵列

CDF文件中的数组以Ctrl + a字段分隔符开始和结束。 这会使数组中的第一个元素看起来像一个独立数据字段。 例如,实现的traits阵列以^A1234开头。 数组分隔符和ID ^B5678遵循此条目。 因此,您可能会想到已实现traits数组中的第一个元素是ID 5678(因为它以^B开头)。 但情况并非如此,因此您需要熟悉数据文件的顺序和结构。 即使实现的trait数组(或CDF文件中的任何其他数组)中的第一个元素以^A开头,文件中的外观或位置顺序仍定义数组的开头。 并且,数组中的第一个元素始终与前一个条目之间以^A分隔。

示例CDF文件

示例CDF文件可能类似于以下内容。 在此示例中插入了换行符,以帮助它适合页面。

Customer Data Feed 文件命名约定

以下部分列出并定义CDF文件名中的元素。

CDF 文件名:语法和示例

典型的CDF文件名包含下面列出的元素。 请注意, 斜体​表示变量占位符:

语法

s3://aam-cdf/YOUR-S3-BUCKET-NAME/day=yyyy-mm-dd/hour=hh/AAM-CDF-PARTNER-ID-AAM PROCESS-ID_0.gz

示例

s3://aam-cdf/dataCompany/day=2017-09-14/hour=17/AAM_CDF_1234_000058_0.gz

在S3存储存储桶中,文件按合作伙伴ID(PID)、日和小时的升序排序。

CDF 定义的文件名元素

下表列出并定义了CDF文件名中的元素。

文件名元素 描述

s3://aam-cdf/

这是Amazon S3服务器上CDF文件的默认根存储段。

your S3 bucket name

保存CDF文件的只读S3存储段的名称。

day=yyyy-mm-dd

处理文件的日期。

hour=hh

时间值,以24小时表示,以UTC时区设置。 另请参阅客户数据信息源文件名时间和文件内容时间……

partner ID

您的合作伙伴ID。

AAM process ID_0

内部Audience Manager进程ID。

.gz

gzip文件扩展名。 CDF文件已压缩为gzip文件。

Customer Data Feed 文件处理通知

Audience Manager 将文 .info 件写入 S3 目录,以告知您( Customer Data File )何CDF时可供下载。.info文件还包含JSON格式化的元数据,其中包含有关CDF文件内容的元数据。 有关此通知文件使用的语法和字段的信息,请参阅此部分。

示例信息文件

每个.info文件都包含FilesTotals部分。 Files部分包含一个数组,其中包含每个每小时文件的特定量度。 Totals部分包含特定日期内所有CDF文件中汇总的量度。 .info文件的内容可能与以下示例类似。

{
    "Files": [
        {
            "FileByteSize": 2709730,
            "FileChecksumMD5": "a9ea418e79511642cff11c2a898037dc-1",
            "FileName": "AAM_CDF_1109_000000_0.gz",
            "FileSequenceNumber": 1
        },
        {
            "FileByteSize": 2783351,
            "FileChecksumMD5": "7b469485d60274b6991acd0817855840-3",
            "FileName": "AAM_CDF_1109_000001_0.gz",
            "FileSequenceNumber": 2
        }
    ],
    "Totals": {
        "Day": "2017-09-26",
        "Hour": "18",
        "TotalByteSize": 150092997,
        "TotalNumberFiles": 2
    }
}

定义的信息文件字段

下表列出并定义了CDF .info文件中的元素。

文件对象

字段 描述

Files

启动包含有关CDF文件元数据的数组。

FileByteSize

文件大小(以字节为单位)。

FileChecksumMD5

Amazon S3 ETag。 连字符后面的数字显示在分块上传期间用于构建文件的分块数量。 ETag与文件的MD5校验和不相同。

FileName

文件名。 请参阅客户数据信息源文件命名约定

FileSequenceNumber

每个文件的索引号。

总计对象

字段 描述

Totals

启动包含有关所有CDF文件的聚合数据的对象。

Day

数据可用的日期。 使用yyyy-mm-dd格式。

Hour

可用数据的小时。 使用按UTC时区设置的24小时格式。

TotalByteSize

该日期所有CDF文件的总大小(以字节为单位)。

TotalNumberFiles

上传到S3目录的文件总数。

Customer Data Feed 文件名时间和文件内容时间不同

您的CDF文件包含文件名和文件内容中的时间戳。 这些时间戳记录同一CDF文件的不同事件进程。 在同一文件的名称和内容中看到不同的时间戳并不罕见。 了解每个时间戳有助于避免在处理此数据或尝试按时间对其进行排序时出现的常见错误。

查找CDF文件时间戳

CDF 文件在2个不同位置记录的时间不同。

了解时间戳之间的差异

下表提供了有关CDF文件时间戳的其他详细信息以及有关如何正确使用这些时间戳的信息。

时间戳位置 描述
文件名 CDF文件名中的时间戳标记了Audience Manager开始准备文件以进行提交的时间。 此时间戳在UTC时区中设置。 它使用hour=参数,时间格式为2位小时,以24小时表示。 此时间可以与文件内容中记录的事件时间不同。 使用CDF文件时,有时您会注意到S3存储段在特定小时内为空。 空存储段表示可表示以下任一情况:
  • 那个小时没有数据。
  • 我们的服务器负载过重,无法处理特定小时的文件。 当服务器启动时,它会将本应在早期存储段文件中的文件放入具有稍后时间值的存储段中。 例如,当应在17小时存储段中的文件显示在18小时存储段中时(文件名中为hour=18),您将看到此消息。 在这种情况下,服务器可能在17小时内开始处理您的文件,但在该时间间隔内无法完成它。 文件而是会被推送到下一个每小时存储段。

重要信息:请勿使用文件名时间戳按时间对事件进行分组。如果需要按时间分组,请在文件内容中使用EventTime时间戳。
文件内容 CDF文件内容中的时间戳标记了Data Collection Servers开始处理文件的时间。 此时间戳在UTC时区中设置。 它使用EventTime字段,时间格式为​yyyy-mm-dd hh:mm:ss。 此时间接近页面上事件的实际时间,但可能与文件名中的小时指示器不同。
提示:与文件 hour= 名中的时间戳不同,您可以使 EventTime 用按时间对数据进行分组。

在此页面上