有关日志处理数据集包含文件中定义的特定于 Web 设置的信息,这些文件与用于 Site 的 Adobe 配置文件一起提供。
这些设置定义的过滤发生在日志条目离开解码器后,转换被应用,但在Log Entry Condition评估之前。
您可以配置 Site 的实施,以从数据集中删除 sc-status 代码为 400 或以上的日志条目。成功请求的状态代码小于 400。您的默认实施包括一个Log Processing Dataset Include文件,其中配置了HTTP状态筛选。
编辑 HTTP 状态过滤的配置设置
在数据集配置文件内打开Profile Manager ,然后打开Dataset\Log Processing\Traffic\HTTP Status Filter.cfg文件。
如果您已自定义Site的实施,则存在这些配置设置的文件可能与描述的位置不同。
根据需要查看或编辑该文件参数的值。可参考以下示例。
有关Range条件的信息,请参阅条件。
右键单击窗口顶部的(modified)并单击Save保存HTTP Status Filter.cfg文件。
若要使本地所做的更改生效,请在Profile Manager列中右键单击User列中该文件的复选标记,然后单击Save to > profile name>,其中“配置文件名称”是数据集包含文件所属的数据集配置文件或继承配置文件的名称。
请勿将已修改的配置文件保存到 Adobe 提供的任何内部配置文件中,因为当您安装这些配置文件的更新时,系统会覆盖您所做的更改。
您可以配置 Site 的实施,以使用对照文件从数据集中删除由已知机器人、测试脚本和内部用户 IP 地址生成的日志条目。默认实现包括一个Log Processing Dataset Include文件,其中配置了机器人过滤。
编辑机器人过滤的配置设置
在数据集配置文件内打开Profile Manager ,然后打开Dataset\Log Processing\Traffic\Robot Filter.cfg文件。
如果您已自定义Site的实施,则存在这些配置设置的文件可能与描述的位置不同。
参考以下示例和信息,查看或编辑该文件的参数:
该文件包含由以下三个参数定义的 NotRobotCondition:
如果某个日志条目的浏览器用户代理在两个对照文件中都没有列出,则该日志条目被视为由“真实”访客生成,而不会从数据集中过滤出来。
机器人查找文件中的匹配使用子字符串与c-ip和cs(user-agent)日志字段进行比较。 如果搜索字符串以“$”开头,则它必须匹配所测试字符串的开头;如果搜索字符串以“$”结尾,则它必须匹配所测试字符串的结尾。如果搜索字符串的开头和结尾都是“$”,则字符串必须完全匹配才能筛选出日志条目。例如,若要测试 C 类块中的所有 IP 地址,则需要使用“$231.78.123.”之类的字符串来强制匹配字符串的开头。这将匹配从 231.78.123.0 至 231.78.123.255 的地址。
右键单击窗口顶部的(modified)并单击Save保存文件。
若要使本地所做的更改生效,请在Profile Manager列中右键单击User列中该文件的复选标记,然后单击Save to > profile name>,其中“配置文件名称”是数据集包含文件所属的数据集配置文件或继承配置文件的名称。
请勿将已修改的配置文件保存到 Adobe 提供的任何内部配置文件中,因为当您安装这些配置文件的更新时,系统会覆盖您所做的更改。
如果用于构建数据集的基础日志条目不发生更改(即使用于构建和更新数据集及其维度的转换发生更改)至关重要,则应对“机器人查找文件”、“基线”和“机器人查找文件”(Robot Lookup File, Extended)进行版本控制。 为这些文件指定一个版本号,可确保对默认机器人对照文件的更新不会因在这些文件中添加或删除条目而意外更改以前构建的报表数据集。