阅读有关Data Workbench 生命周期终止公告.
Data Workbench Transform.cfg 文件包含用于定义日志源、数据转换和导出程序的参数。
您定义的转换处理由传感器( .vsl 文件)或包含在文本文件、XML文件或ODBC兼容数据库中,并将它们输出到现有字段、覆盖当前数据或新定义的字段中。
若要配置转换功能,需要在要导出事件数据的配置文件 Dataset 文件夹内编辑 Data Workbench Transform.cfg 文件。通常,此配置文件将专门用于转换功能(也就是说,除了 Data Workbench Transform.cfg 文件中定义的数据处理以外,不执行其他任何数据处理)。请注意, Log Processing Dataset Include 除了data workbench中指定的文件之外,还会应用任何继承配置文件的文件 Transform.cfg 文件。
有关数据集包含文件的信息,请参阅 数据集包含文件.
如果您要导出的数据由 Data Workbench Server 群集处理,则群集中的每个处理服务器 (DPU) 都将处理数据,但只有第一个 DPU(profile.cfg 文件中的处理服务器 #0)会将输出数据写入其本地文件系统中。
编辑 Data Workbench Transform.cfg 文件
参数 | 描述 |
---|---|
End Time(结束时间) | 可选。过滤数据以包含到此时间戳之前的日志条目,但不包含此时的日志条目。Adobe 建议使用以下时间格式之一:
例如,指定2013年7月29日00:00:00 EDT作为 结束时间 包括截至2013年7月28日的数据,日期::59:美国东部夏令时下午59点。 必须指定时区。如果未指定,时区不会默认为 GMT。有关 Data Workbench Server 支持的时区缩写列表,请参阅 时区代码 . 传感器和日志文件源的 Use Start/End Times(使用开始/结束时间)参数与此参数相关。 |
Exporters(导出程序) | 导出程序的子字段指定如何处理输出数据和/或设置输出数据的格式。可以为一组日志源定义多个导出程序。每个导出程序类型都独立创建输出。 存在以下三种类型的导出程序:
有关导出程序类型的详细信息,请参阅 定义导出程序 . |
Hash Threshold(哈希阈值) | 可选。对行进行随机二次采样的采样因子。如果设为数字 n,则每 n 个跟踪 ID 中只会选择一个进行导出,从而使导出行的总数按系数 n 减少。若要导出所有行,您需要将 Hash Threshold(哈希阈值)设为 1。 |
Log Entry Condition(日志条目条件) | 可选。定义用于考虑导出日志条目的规则。有关 日志条目条件 ,请参阅 日志处理配置文件 . |
日志源 | 数据源。“日志源”可以是 .vsl 文件、日志文件、XML 文件或 ODBC 兼容数据库中的数据。有关 日志源 ,请参阅 日志处理配置文件 . 转换认为所有源数据在按字典顺序排列的输入文件中都按年代顺序排列。如果不满足此要求,则无法正确计算“截至”时间,并且其他输入数据可能会在输出文件关闭之后才得到处理。 |
Offline Mode(离线模式) | 可选。true 或 false。如果为 true,则转换假定在开始处理数据时,所有输入文件都存在。在读取所有输入数据之后,转换会关闭所有输出文件,而不等待接收更多数据。默认值为 false。
注意:如果“离线模式”设为 true,则转换认为在处理开始之前,所有源数据都存在。如果在输出文件关闭之后收到其他数据,则 VisualServer.log 文件中会生成一条警告消息。 |
Reprocess(重新处理) | 可选。此处可以输入任意字符或字符组合。更改此参数并将文件保存到转换计算机中,会开始重新处理数据。 有关重新处理数据的信息,请参阅 重新处理和重新转换 . |
Stages(阶段) | 可选。可用在除 Data Workbench Transform.cfg 文件之外执行的日志处理数据集包含文件中的处理阶段名称。处理阶段提供了一种对日志处理数据集包含文件中定义的转换进行排序的方式。如果您在多个日志处理数据集包含文件中定义了一个或多个转换,并且希望特定的转换在导出过程中的特定时间点执行,则此参数非常有用。 您在此处列出阶段的顺序决定了在数据导出过程中对日志处理数据集包含文件中的转换执行的顺序。“预处理”和“后处理”都是内置阶段;“预处理”始终是第一个阶段,“后处理”始终是最后一个阶段。默认情况下,有一个称为“默认”的指定阶段。 添加新处理阶段
删除现有处理阶段
注意:当您在日志处理数据集包含文件中指定阶段时,该阶段的名称必须与您在此处输入的名称完全匹配。有关数据集包含文件的更多信息,请参阅 数据集包含文件 . |
Start Time(开始时间) | 可选。过滤数据以包含具有此时或之后时间戳的日志条目。Adobe 建议使用以下时间格式之一:
例如,指定2013年7月29日00:00:“开始时间”为“美国东部夏令时”,包含从2013年7月29日(12日)开始的数据:00:美国东部时间上午00点。 必须指定时区。如果未指定,时区不会默认为 GMT。有关 Data Workbench Server 支持的时区缩写列表,请参阅 时区代码 .
注意:传感器和日志文件源的 Use Start/End Times(使用开始/结束时间)参数与此参数相关。 |
Transformations(转换) | 可选。定义要应用于数据的转换。有关可用转换类型的信息,请参阅 数据转换 .
注意:以下转换类型在 Data Workbench Transform.cfg 文件中定义时将无法正常使用:
|
如果在输出文件关闭后收到其他数据(请参阅 Log Sources 和 Offline Mode )、 Transform 使用附加数据创建新的输出文件。 新输出文件的名称生成自原始输出文件的名称(在紧靠扩展名的前面添加带括号的版本号)。例如,如果原始输出文件为 20070701-ABC.vsl,则将命名此文件的后续版本 20070701-ABC(1).vsl, 20070701-ABC(2).vsl,等等。 请注意,将版本控制的文件用作 Data Workbench Server 的输入,可能会导致处理错误。
Adobe 建议确保所有源数据在按字典顺序排列的输入文件中都按年代顺序排列,以及当 Offline Mode(离线模式)设为 true 时,确保所有源数据在处理开始之前都存在,从而避免创建版本控制的输出文件。有关更多信息,请参阅 Log Sources 和 Offline Mode 上表中的条目。
通过右键单击添加转换 Transformations 单击 Add new > Transformation type. 完成转换字段。
请参阅 数据转换 有关可与转换功能一起使用的转换的说明和示例。
右键单击 (modified) ,然后单击 Save.
要使本地所做的更改生效,请在 Profile Manager,右键单击data workbench的复选标记 Transform.cfg 在 User 列,然后单击 Save to > profile name,其中“配置文件名称”是要为其导出数据的配置文件的名称。 在配置文件同步之后,系统便会开始重新处理数据。
有关重新处理数据以进行导出的信息,请参阅 重新处理和重新转换.