Customer Data Feeds

有关 Customer Data Feed (CDF)文件和有关如何开始的说明。 如果您有兴趣接收 CDF 文件,或只是想要更多信息。

文件内容和用途

CDF 文件包含的数据与 Audience Manager 事件调用 (/event) 发送到我们服务器的数据相同。其中包括用户ID等数据, trait IDs, segment IDs,以及事件调用捕获的所有其他参数。 内部 Audience Manager 系统将事件数据处理为 CDF 文件,其内容按顺序组织为以设置顺序显示的字段。 Audience Manager 尝试生成 CDF 每小时文件,并将它们存储在特定于客户的安全存储段中 Amazon S3 服务器。 我们提供这些文件,以便您能够 Audience Manager 超出用户界面所规定限制的数据。

重要

使用CDF文件时请注意以下限制:

  • 在设置CDF文件交付之前,请确保您拥有第三方数据提供商的适当权限,以导出第三方特征。 Audience Manager当前不支持用户界面中向第三方数据提供商请求CDF文件交付导出权限的功能,因此请单独联系他们。
  • 您不应使用 CDF 文件作为监控页面流量、协调报表差异或计费等的代理。

入门指南

没有可启动的自助服务流程 CDF 文件交付。 联系您的 Audience Manager 顾问或客户关怀团队以开始使用。 在实施过程中,您的 Audience Manager 代表将:

  • 设置 Amazon S3 存储段。
  • 提供只读 S3 文件存储段的身份验证凭据。 您将无法查看或访问属于其他客户的目录和文件。

文件通知和 CDF 文件将显示在 S3 准备下载时存储。 您负责监控和下载分配的文件 S3 目录访问Advertising Cloud的帮助。 请参阅客户数据信息源文件处理通知

后续步骤

以下部分和 客户数据信息源常见问题解答 可以帮助您更熟悉此服务。

Customer Data Feed 定义的内容

列出并定义 CDF 文件,按外观顺序排列。 定义包括数据类型,但此信息不属于 CDF 文件。

定义

A CDF 文件包含下面定义的部分或全部字段。 有关内部文件组织的信息,请参阅 客户数据信息源文件结构.

字段 数据类型 描述

Event Time

时间戳

处理CDF文件的时间 数据收集服务器 (DCS)。 时间戳使用 yyyy-mm-dd hh:mm:ss 格式和以UTC时区设置。

注意:事件时间 不是:

Device

字符串

这是 独特用户ID (UUID),即网站访客的38位设备ID。 另请参阅 Audience Manager 中的 ID 索引

Container ID

数值

触发ID同步的容器的ID。

Realized Traits

数值数组

一个特征ID数组,其中包含访客在事件调用中实现(符合条件)的所有特征。

请注意,数组可以包含访客之前符合条件的特征,以及通过此事件调用重新符合条件的特征。

Realized Segments

数值数组

区段ID数组,其中包含访客在事件调用中实现(符合条件)的所有区段。

Request Parameters

字符串

一个字符串,可捕获所有参数(变量、ID、键值对、设备广告ID等) 在事件调用中传递。

缩短示例:

d_rtbd:json,c_contextData.a.CarrierName:mobile,c_contextData.a.adid:92D56353-49C5-431E-B474-FC528D585810,c_contextData.a,RunMode:Application,c_contextData.a.DaysSinceLastUpgrade:61,d_cid_ic:xid%01EACB6E40-AC65-4012-9FE9-ABD59965E9C4%011,c_contextData.a.PrevSessionLength:583

Referer Data Type

字符串

引荐页面的未编码URL(如果有)。

IP Data Type

字符串

在事件调用中捕获的访客的IP地址。

MCDevice

字符串

Experience Cloud 分配给网站访客的ID(MID)。 另请参阅 Cookie和AdobeExperience PlatformIdentity服务.

All Segments

数值数组

一组区段ID,其中包含访客符合条件的先前实现的区段和新区段。

All Traits

数值数组

第一方和第三方特征ID的数组,其中包含访客自上次生成数据馈送以来符合条件的先前实现的特征和新特征。

Customer Data Feed 文件结构

列出并定义 CDF 文件。 这包括数据序列、字段分隔符和分隔符、数据文件映射和样例文件。

数据字段标识符和序列

CDF 文件不包含标记列或字段标题。 相反, CDF 文件定义字段和数组,并使用非打印功能 ASCII 字符。 此外, CDF 文件按特定顺序列出每个字段和数组。 了解字段标识符和顺序将帮助您正确解析文件。

CDF文件元素 描述

字段分隔符和分隔符

这些非打印字符定义CDF文件的元素和结构:

  • Ctrl + a(ASCII) 001 ^A)使用非打印空间指示器分隔单个字段中的数据。
  • Ctrl + b(ASCII) 002 ^B)将数据与数组和请求参数分隔开。
  • Ctrl + c(ASCII) 003 ^C)定义键值对。

字段序列

重要信息: Audience Manager 保留在未来版本中向CDF文件末尾添加新字段的权限。 这意味着文件解析系统的技术设计不应假定列数固定(尽管它可能假定现有列的顺序固定)。

CDF文件中的数据按如下所示的顺序显示。/N可能显示代替任何这些字段,表示空值。

  1. 事件时间
  2. 设备
  3. 容器 ID
  4. 已实现的特征
  5. 实现的区段
  6. 请求参数
  7. Referer
  8. IP 地址
  9. Experience Cloud设备ID(或MID)。 另请参阅 Cookie和Adobe Experience Platform Identity服务
  10. 所有区段
  11. 所有特征

有关字段描述,请参阅 定义的客户数据馈送内容.

CDF 文件映射

CDF 文件数据按如下所示的顺序显示。

识别阵列

数组 CDF 文件的开始和结束 Ctrl + a 字段分隔符。 这会使数组中的第一个元素看起来像一个独立数据字段。 例如,已实现 traits 数组开头 ^A1234. 数组分隔符和ID ^B5678 在此条目之后。 因此,您可能会忍不住想到,实现的 traits 数组为ID 5678(因为它以 ^B)。 但情况并非如此,因此您需要熟悉数据文件的顺序和结构。 即使 trait 阵列(或 CDF 文件)开头 ^A,文件中外观或位置的顺序定义数组的开头。 而且,数组中的第一个元素始终通过 ^A.

示例 CDF 文件

示例 CDF 文件可能类似于以下内容。 在此示例中插入了换行符,以帮助它适合页面。

Customer Data Feed 文件命名约定

以下部分列出并定义了 CDF 文件名。

CDF 文件名:语法和示例

典型的 CDF 文件名包含下面列出的元素。 注意, 斜体 指示变量占位符:

语法

s3://aam-cdf/YOUR-S3-BUCKET-NAME/day=yyyy-mm-dd/hour=hh/AAM-CDF_PARTNER-ID_FILE-SEQUENCE_0.gz

示例

s3://aam-cdf/dataCompany/day=2017-09-14/hour=17/AAM_CDF_1234_0_0_0.gz

在 S3 存储段中,文件按合作伙伴ID(PID)、天和小时。

CDF 定义的文件名元素

下表列出并定义了 CDF 文件名。

文件名元素 描述

s3://aam-cdf/

这是Amazon S3服务器上CDF文件的默认根存储段。

your S3 bucket name

保存CDF文件的只读S3存储段的名称。

day=yyyy-mm-dd

处理文件的日期。

hour=hh

时间值,以24小时表示,以UTC时区设置。 另请参阅 客户数据馈送文件名时间和文件内容时间…….

partner ID

您的合作伙伴ID。

File Sequence_0

标识文件序列的值。 序列增加如下:0_0_0 、 0_1_0 、 0_2_0....1_0_0

.gz

gzip文件扩展名。 CDF文件已压缩为gzip文件。

Customer Data Feed 文件处理通知

Audience Manager 写入 .info 文件 S3 通知您的 Customer Data File (CDF)可供下载。 的 .info 文件还包括 JSON 有关您的 CDF 文件。 有关此通知文件使用的语法和字段的信息,请参阅此部分。

示例信息文件

每个 .info 文件包含 FilesTotals 中。 的 Files 部分包含一个数组,其中包含每个每小时文件的特定量度。 的 Totals 部分包含所有 CDF 文件。 的 .info 文件可能与以下示例类似。

{
    "Files": [
        {
            "FileByteSize": 2709730,
            "FileChecksumMD5": "a9ea418e79511642cff11c2a898037dc-1",
            "FileName": "AAM_CDF_1109_000000_0.gz",
            "FileSequenceNumber": 1
        },
        {
            "FileByteSize": 2783351,
            "FileChecksumMD5": "7b469485d60274b6991acd0817855840-3",
            "FileName": "AAM_CDF_1109_000001_0.gz",
            "FileSequenceNumber": 2
        }
    ],
    "Totals": {
        "Day": "2017-09-26",
        "Hour": "18",
        "TotalByteSize": 150092997,
        "TotalNumberFiles": 2
    }
}

定义的信息文件字段

下表列出并定义 CDF .info 文件。

文件对象

字段 描述

Files

启动包含有关CDF文件元数据的数组。

FileByteSize

文件大小(以字节为单位)。

FileChecksumMD5

Amazon S3 ETag。 连字符后面的数字显示在分块上传期间用于构建文件的分块数量。 的 ETag 与文件的MD5校验和不相同。

FileName

文件名。 请参阅 客户数据信息源文件命名约定.

FileSequenceNumber

每个文件的索引号。

总计对象

字段 描述

Totals

启动包含有关所有CDF文件的聚合数据的对象。

Day

数据可用的日期。 使用 yyyy-mm-dd 格式。

Hour

可用数据的小时。 使用按UTC时区设置的24小时格式。

TotalByteSize

该日期所有CDF文件的总大小(以字节为单位)。

TotalNumberFiles

上传到S3目录的文件总数。

Customer Data Feed 文件名时间和文件内容时间不同

您的 CDF 文件包含文件名和文件内容中的时间戳。 这些时间戳记录相同事件的不同进程 CDF 文件。 在同一文件的名称和内容中看到不同的时间戳并不罕见。 了解每个时间戳有助于避免在处理此数据或尝试按时间对其进行排序时出现的常见错误。

定位 CDF 文件时间戳

CDF 文件在2个不同位置记录的时间不同。

了解时间戳之间的差异

下表提供了有关 CDF 文件时间戳以及有关如何正确使用时间戳的信息。

时间戳位置 描述
文件名 中的时间戳 CDF 文件名表示 Audience Manager 开始准备文件以进行交付。 此时间戳在 UTC 时区。 它使用 hour= 参数,时间格式为2位数小时,以24小时表示。 此时间可以与文件内容中记录的事件时间不同。 使用 CDF 文件,有时您会注意到 S3 存储段在特定小时内为空。 空存储段表示可表示以下任一情况:
  • 那个小时没有数据。
  • 我们的服务器负载过重,无法处理特定小时的文件。 当服务器启动时,它会将本应在早期存储段文件中的文件放入具有稍后时间值的存储段中。 例如,当应在17小时存储段中的文件显示在18小时存储段中时,您会看到这一点(具有 hour=18 )。 在这种情况下,服务器可能在17小时内开始处理您的文件,但在该时间间隔内无法完成它。 文件而是会被推送到下一个每小时存储段。

重要信息:请勿使用文件名时间戳按时间对事件进行分组。 如果需要按时间分组,请使用 EventTime 文件内容中的时间戳。
文件内容 中的时间戳 CDF 文件内容标记 Data Collection Servers 开始处理文件。 此时间戳在 UTC 时区。 它使用 EventTime 字段,其时间格式为 yyyy-mm-dd hh:mm:ss. 此时间接近页面上事件的实际时间,但可能与文件名中的小时指示器不同。
笔尖:与 hour= 文件名中的时间戳,您可以使用 EventTime 按时间对数据进行分组。

在此页面上