编辑数据集配置文件的 Log Processing.cfg 文件的步骤。
在处理数据集配置文件时,打开Profile Manager并单击Dataset以显示其内容。
有关打开和使用Profile Manager的信息,请参阅Data Workbench用户指南。
日志处理子目录可能位于Dataset目录内。 此子目录包含为一个或多个继承配置文件创建的Log Processing Dataset Include文件。 请参阅数据集包含文件。
右键单击Log Processing.cfg旁边的复选标记,然后单击Make Local。 User列中将显示此文件的复选标记。
右键单击新创建的复选标记,然后单击Open > in Workstation。 出现Log Processing.cfg窗口。
您还可以从Transformation Dependency Map打开Log Processing.cfg文件。 有关转换依赖关系图的信息,请参阅数据集配置工具。
参考下表,编辑该配置文件中的参数。
在 Data Workbench 窗口内编辑 Log Processing.cfg 文件时,可以使用快捷键实现基本编辑功能,包括剪切 (Ctrl+x)、复制 (Ctrl+c)、粘贴 (Ctrl+v)、撤消 (Ctrl+z)、恢复 (Ctrl+Shift+z)、选择部分(单击并拖动)以及选择全部 (Ctrl+a)。您还可以使用快捷方式将文本从一个配置文件(.cfg)复制并粘贴到另一个配置文件。
继承配置文件的Log Processing Dataset Include文件包含下表中描述的参数子集以及一些其他参数。 请参阅数据集包含文件。
参数 | 描述 |
---|---|
日志源 | 数据源。请参阅日志源。 |
End Time(结束时间) | 可选。过滤数据以包含到此时间戳之前的日志条目,但不包含此时的日志条目。Adobe 建议使用以下时间格式之一:
例如,指定“July 29 2013 00:00:00 EDT”作为结束时间,将包含截至 2013 年 7 月 28 日美国东部时间晚上 11:59:59 的数据。请参阅数据过滤器。 必须指定时区。如果未指定,时区不会默认为 GMT。有关 Data Workbench Server 支持的时区缩写列表,请参阅 时区代码 .
注意:传感器、日志文件和 XML 源的 Use Start/End Times(使用开始/结束时间)参数与此参数相关。请参阅日志源中讨论这些源类型的部分。 |
Fields(字段) | 可选。Adobe 建议在一个或多个日志处理数据集包含文件中定义 Fields(字段)。请参阅日志处理数据集包含文件 。 |
Group Maximum Key Bytes(组最大键字节数) | 服务器可为单个跟踪 ID 处理的最大事件数据量。超过此限制的数据会被数据集构建过程过滤出去。当键拆分处于活动状态时,此值必须设为 2e6;当键拆分处于不活动状态时,此值必须设为 1e6。请参阅键拆分。
注意:在未咨询 Adobe 的情况下,请勿更改此值。 |
Hash Threshold(哈希阈值) | 可选。对行进行随机二次采样的采样因子。如果设置为数字 n,那么每 n 个跟踪 ID 中只有一个会进入数据集,从而将数据集中的总行数减少到原来的 1/n。 要创建需要 100% 准确度(即包括所有行)的数据集,您需要将 Hash Threshold(哈希阈值)设置为 1。 值: Hash Threshold = 1(100% 的数据,包含所有行。)Hash Threshold = 2(1/2 的数据,包含一半的行。) Hash Threshold = 3 (1/3 的数据,包含三分之一的行,但在“查询完成”中会四舍五入为 34%。) Hash Threshold = 4 (1/4 的数据,包含四分之一的行。)
注意:如果使用 Hash Threshold = 8,那么会提供 1/8 的数据,即 12.5%。但查询完成值会将此值四舍五入为 13%。其他示例包括 Hash Threshold = 6,此值将提供 17% 的查询结果。Hash Threshold = 13 将提供 8% 的查询结果。 如果 Log Processing.cfg 和 Transformation.cfg 文件中都指定了 Hash Threshold(哈希阈值),则该参数不会按顺序应用,而是会应用两个配置文件中设置最大的那个值。请参阅数据过滤器。 |
Log Entry Condition(日志条目条件) | 可选。定义用于考虑将日志条目加入数据集中的规则。请参阅 日志条目条件 . |
Reprocess(重新处理) | 可选。此处可以输入任意字符或字符组合。更改此参数并将文件保存到 Data Workbench Server 计算机中,会开始重新处理数据。 请参阅 重新处理和重新转换 . |
Split Key Bucket Space(拆分键存储段空间) | 键拆分中涉及的参数。当键拆分处于活动状态时,其值应该为 6e6。请参阅键拆分。
注意:在未咨询 Adobe 的情况下,请勿更改此值。 |
Split Key Bytes(拆分键字节数) | 键拆分中涉及的参数。当键拆分处于活动状态时,其值应该为 1e6;当键拆分处于不活动状态时,其值应该为 0。请参阅键拆分。
注意:在未咨询 Adobe 的情况下,请勿更改此值。 |
Split Key Space Ratio(拆分键空间比率) | 键拆分中涉及的参数。当键拆分处于活动状态时,其值应该为 10。请参阅键拆分。
注意:在未咨询 Adobe 的情况下,请勿更改此值。 |
Stages(阶段) | 可选。可以在日志处理数据集包含文件中使用的处理阶段的名称。处理阶段提供了一种对日志处理数据集包含文件中定义的转换进行排序的方式。如果您在多个日志处理数据集包含文件内定义了一个或多个转换,并且您希望特定的转换在日志处理过程中的特定时间点执行,则此参数非常有用。 您在此处列出阶段的顺序决定了在日志处理过程中对日志处理数据集包含文件中的转换执行的顺序。“预处理”和“后处理”都是内置阶段;“预处理”始终是第一个阶段,“后处理”始终是最后一个阶段。默认情况下,有一个称为“默认”的指定阶段。 添加新处理阶段
删除现有处理阶段
注意:当您在日志处理数据集包含文件中指定阶段时,该阶段的名称必须与您在此处输入的名称完全匹配。请参阅数据集包含文件 。 |
Start Time(开始时间) | 可选。过滤数据以包含具有此时或之后时间戳的日志条目。Adobe 建议使用以下时间格式之一:
例如,指定“July 29 2013 00:00:00 EDT”作为开始时间,将包含从 2013 年 7 月 29 日美国东部时间凌晨 12:00:00 开始的数据。请参阅数据过滤器。 必须指定时区。如果未指定,时区不会默认为 GMT。有关 Data Workbench Server 支持的时区缩写列表,请参阅 时区代码 .
注意:传感器、日志文件和 XML 源的 Use Start/End Times(使用开始/结束时间)参数与此参数相关。请参阅日志源中讨论这些源类型的部分。 |
时区 | 可选。Data Workbench Server的时区,用于在日志处理期间进行时间转换(例如由x-local-timestring字段表示的转换)。
注意:如果您想要在数据集构建的日志处理阶段访问已转换的时间字段,则必须指定时区。否则,Data Workbench Server 会在事件日志中记录一条错误。 请参阅 时区 . |
Transformations(转换) | 可选。Adobe 建议在一个或多个日志处理数据集包含文件中为日志处理定义转换。请参阅日志处理数据集包含文件 。 |
右键单击窗口顶部的(modified) ,然后单击Save。
在Profile Manager中,右键单击User列中Log Processing.cfg的复选标记,然后单击Save to > dataset profile name>以使本地所做的更改生效。 在数据集配置文件同步之后,系统便会开始重新处理数据。
请勿将已修改的配置文件保存到 Adobe 提供的任何内部配置文件中,因为当您安装这些配置文件的更新时,系统会覆盖您所做的更改。
有关重新处理数据的更多信息,请参阅重新处理和重新转换。