了解数据集构建

Adobe 数据集包含由 Data Workbench Server 加载并处理过的数据。

数据集构建过程包含由 Data Workbench Server (InsightServer64.exe) 加载并处理数据时所涉及的步骤。

注意

处理Adobe数据集中的数据并提供数据的Data Workbench Server称为数据处理单元或DPU。 它有时又称为处理服务器或查询服务器。Data Workbench和Report客户端直接与DPU交互。

在数据集构建过程中,Data Workbench Server 从日志源读取源数据,对特定的数据字段应用转换,并定义要从转换字段创建的扩展维度。构建过程包括以下两个阶段: 日志 处理 和转换。构建数据集之后,您可以使用数据集的扩展维度来创建派生量度和维度,以便进行具体的分析。

数据集构建就像是一个生产过程。您选择要用于构建数据集的数据(原材料),然后定义用于处理数据中提供信息的数据转换(加工步骤)来创建扩展维度(生产的产品)。

系统会过滤日志,并识别要传递到转换阶段的数据字段。在日志处理阶段结束时,数据会按跟踪 ID 进行分组(即所有具有相同跟踪 ID 的日志条目会分成一组),并按时间进行排序。在日志处理阶段,您无法访问已处理的数据以供分析使用。

指定日志源

日志源是指包含要用于构建数据集的数据的文件。日志源中提供的数据称为事件数据,因为每条数据记录都表示一条交易记录或一个事件的单个实例。此外,每条记录(日志条目)都包含一个称为跟踪 ID 的值。

注意

选择日志源时,请确保每个日志条目都包含实体的跟踪ID,该跟踪ID表示要将数据分组到的最高级别。 例如,如果您要处理从网站流量收集的数据,则可能会选择访客作为此实体。每个访客都有一个唯一的跟踪 ID,并且所有关于特定网站访客的数据都可分为一组。要寻求帮助,请联系 Adobe。

日志源事件数据由Sensors实时收集,或由Insight Server从存档的数据源提取。 传感器从HTTP和应用程序服务器中收集的事件数据会传输到Insight Server,Insight Server会将这些数据转换为高度压缩的日志(.vsl)文件。 Insight Server 可读取位于无格式文件、XML 文件或 ODBC 数据源中的事件数据,并提供您定义的解码器来从这些不同的格式中提取通用的数据字段集。

定义转换

转换是一组指令,您可以对其进行定义以提取或处理事件数据中的信息。您定义的每个转换都会应用于每条事件数据记录(日志条目),以更新现有日志字段或生成新字段。转换结果会与日志条目条件一起使用,用来评估将在日志处理过程中从数据集过滤出的日志条目。

并非所有类型的转换都可以在数据集构建过程的日志处理阶段使用。

过滤日志

数据集包含几个参数,用于过滤从转换流出的数据。过滤用来指定要在后续处理步骤中使用的日志条目。例如,可以按时间范围、服务器响应的状态或 IP 地址和用户代理信息定义过滤器。Log Entry Condition是可自定义的过滤测试。 该测试会在每个日志条目的字段中查找特定的条件来确定该条目是否应在数据集构建过程中得到进一步处理。如果某个日志条目不符合条件,则会从构建过程中删除该条目。

识别转换字段

如果某个数据字段要从日志处理阶段传递到转换阶段以便进一步处理,您必须在日志处理过程中识别该字段。无论字段是从日志源获取的还是在日志处理过程中从应用于数据的数据转换创建的,此要求都适用。

在数据集构建的转换阶段,需要对从日志处理过程中输出的已分组和已排序数据进行处理。此时会执行额外的数据转换,并且会创建扩展数据维度以供您在分析中使用。在转换阶段,您可以访问数据的统计样本,在转换阶段接近完成时该数据会变得更大。

定义转换

您可以将转换定义为在数据集构建过程的转换阶段使用,以便创建扩展维度。每个转换都会应用于每条从日志处理过程传递的事件数据记录(日志条目)。

过滤日志

在转换期间可以应用Log Entry Condition,以在来自日志处理的每个日志条目的字段中查找特定条件。 如果某个日志条目不符合条件,则会从构建过程中删除该条目。

定义扩展维度

扩展维度是数据集构建过程的最终产物,它们表示数据中日志字段之间的关系。您可以使用它们创建可视化、构建扩展量度或执行分析,以了解特定于您的业务的操作和问题。

在此页面上