Data Workbench Transform.cfg 文件包含用于定义日志源、数据转换和导出程序的参数。
您定义的转换操作由传感器(.vsl文件)收集或包含在文本文件、XML文件或兼容ODBC的数据库中的原始数据,并将它们输出到现有字段中,覆盖当前数据或输出到新定义的字段中。
若要配置转换功能,需要在要导出事件数据的配置文件 Dataset 文件夹内编辑 Data Workbench Transform.cfg 文件。通常,此配置文件将专门用于转换功能(也就是说,除了 Data Workbench Transform.cfg 文件中定义的数据处理以外,不执行其他任何数据处理)。请务必注意,除了在Data Workbench Transform.cfg文件中指定的处理指令外,还将应用在Log Processing Dataset Include文件中为任何继承用户档案指定的任何处理指令。
有关数据集包含文件的信息,请参阅数据集包含文件。
如果您要导出的数据由 Data Workbench Server 群集处理,则群集中的每个处理服务器 (DPU) 都将处理数据,但只有第一个 DPU(profile.cfg 文件中的处理服务器 #0)会将输出数据写入其本地文件系统中。
编辑 Data Workbench Transform.cfg 文件
参数 | 描述 |
---|---|
End Time(结束时间) | 可选。过滤数据以包含到此时间戳之前的日志条目,但不包含此时的日志条目。Adobe 建议使用以下时间格式之一:
例如,指定“July 29 2013 00:00:00 EDT”作为“结束时间”,将包含截至 2013 年 7 月 28 日美国东部时间晚上 11:59:59 的数据。 必须指定时区。如果未指定,时区不会默认为 GMT。有关 Data Workbench Server 支持的时区缩写列表,请参阅 时区代码 . 传感器和日志文件源的 Use Start/End Times(使用开始/结束时间)参数与此参数相关。 |
Exporters(导出程序) | 导出程序的子字段指定如何处理输出数据和/或设置输出数据的格式。可以为一组日志源定义多个导出程序。每个导出程序类型都独立创建输出。 存在以下三种类型的导出程序:
有关导出程序类型的详细信息,请参阅 定义导出程序 . |
Hash Threshold(哈希阈值) | 可选。对行进行随机二次采样的采样因子。如果设为数字 n,则每 n 个跟踪 ID 中只会选择一个进行导出,从而使导出行的总数按系数 n 减少。若要导出所有行,您需要将 Hash Threshold(哈希阈值)设为 1。 |
Log Entry Condition(日志条目条件) | 可选。定义用于考虑导出日志条目的规则。有关日志条目条件的详细信息,请参阅日志处理配置文件。 |
日志源 | 数据源。“日志源”可以是 .vsl 文件、日志文件、XML 文件或 ODBC 兼容数据库中的数据。有关日志源的信息,请参阅日志处理配置文件。 转换认为所有源数据在按字典顺序排列的输入文件中都按年代顺序排列。如果不满足此要求,则无法正确计算“截至”时间,并且其他输入数据可能会在输出文件关闭之后才得到处理。 |
Offline Mode(离线模式) | 可选。true 或 false。如果为 true,则转换假定在开始处理数据时,所有输入文件都存在。在读取所有输入数据之后,转换会关闭所有输出文件,而不等待接收更多数据。默认值为 false。
注意:如果“离线模式”设为 true,则转换认为在处理开始之前,所有源数据都存在。如果在输出文件关闭之后收到其他数据,则 VisualServer.log 文件中会生成一条警告消息。 |
Reprocess(重新处理) | 可选。此处可以输入任意字符或字符组合。更改此参数并将文件保存到转换计算机中,会开始重新处理数据。 有关重新处理数据的信息,请参阅重新处理和重新转换。 |
Stages(阶段) | 可选。可用在除 Data Workbench Transform.cfg 文件之外执行的日志处理数据集包含文件中的处理阶段名称。处理阶段提供了一种对日志处理数据集包含文件中定义的转换进行排序的方式。如果您在多个日志处理数据集包含文件中定义了一个或多个转换,并且希望特定的转换在导出过程中的特定时间点执行,则此参数非常有用。 您在此处列出阶段的顺序决定了在数据导出过程中对日志处理数据集包含文件中的转换执行的顺序。“预处理”和“后处理”都是内置阶段;“预处理”始终是第一个阶段,“后处理”始终是最后一个阶段。默认情况下,有一个称为“默认”的指定阶段。 添加新处理阶段
删除现有处理阶段
注意:当您在日志处理数据集包含文件中指定阶段时,该阶段的名称必须与您在此处输入的名称完全匹配。有关数据集包含文件的详细信息,请参阅数据集包含文件。 |
Start Time(开始时间) | 可选。过滤数据以包含具有此时或之后时间戳的日志条目。Adobe 建议使用以下时间格式之一:
例如,指定“July 29 2013 00:00:00 EDT”作为开始时间,将包含从 2013 年 7 月 29 日美国东部时间凌晨 12:00:00 开始的数据。 必须指定时区。如果未指定,时区不会默认为 GMT。有关 Data Workbench Server 支持的时区缩写列表,请参阅 时区代码 .
注意:传感器和日志文件源的 Use Start/End Times(使用开始/结束时间)参数与此参数相关。 |
Transformations(转换) | 可选。定义要应用于数据的转换。有关可用转换类型的信息,请参阅 数据转换 .
注意:以下转换类型在 Data Workbench Transform.cfg 文件中定义时将无法正常使用:
|
如果在关闭输出文件后接收到其他数据(请参阅上表中的Log Sources和Offline Mode),则Transform会用附加数据创建新的输出文件。 新输出文件的名称生成自原始输出文件的名称(在紧靠扩展名的前面添加带括号的版本号)。例如,如果原始输出文件为20070701-ABC.vsl,则此文件的后续版本将命名为20070701-ABC(1).vsl、20070701-ABC(2).vsl等。 请注意,将版本控制的文件用作 Data Workbench Server 的输入,可能会导致处理错误。
Adobe 建议确保所有源数据在按字典顺序排列的输入文件中都按年代顺序排列,以及当 Offline Mode(离线模式)设为 true 时,确保所有源数据在处理开始之前都存在,从而避免创建版本控制的输出文件。有关详细信息,请参阅上表中的Log Sources和Offline Mode条目。
通过右键单击Transformations并单击Add new > Transformation type添加转换。 完成转换字段。
请参阅数据转换,了解可与转换功能一起使用的转换的说明和示例。
右键单击窗口顶部的(modified),然后单击Save。
要使本地所做的更改生效,请在Profile Manager中右键单击User列中Data Workbench Transform.cfg的复选标记,然后单击Save to > profile name ,其中用户档案名称是要导出用户档案的名称。 在配置文件同步之后,系统便会开始重新处理数据。
有关重新处理数据以进行导出的信息,请参阅重新处理和重新转换。