构建决策树

重要

阅读有关Data Workbench 生命周期终止公告.

通过识别正类用例并添加量度和维度输入的方式来设置决策树,以评估数据和了解决策树。

请按照这些步骤构建决策树。

  1. 打开新工作区。

    打开一个新工作区后,您需要单击​添加 > 临时解锁

  2. 要打开决策树生成器,请右键单击 Visualization > 预测分析 > 分类 > 决策树生成器.

  3. 设置​正类用例

    您可以为决策树定义正类用例,方法是在“查找器”中选择维度,或在表格中选择维度元素,也可以在“设计过滤器”中设计一个过滤器。实际上,正类用例可以是工作区中多个选项的组合,包括过滤器、维度、元素和 Data Workbench 可视化值的所有类型。

    • 设计和应用过滤器​作为正类用例。在工作区中右键单击并选择 Tools > Filter Editor 来设计和应用过滤器。

    • 添加​维度​作为正类用例。在工作区中,右键单击并选择 工具 > 查找器 (或选择 Add > Finders )。 在​搜索​字段中输入维度名称,然后选择一个维度。

    • 添加​量度​作为正类用例。右键单击并选择 工具 > 查找器 或选择 Add > Finders 以打开“量度”表。 选择一个量度作为正类用例。

    • 添加​维度元素​作为正类用例。在工作区中右键单击并选择 Table 要打开维度元素,请从维度元素中选择以设置正类用例。

  4. 单击 Options > Set Positive Case.

    此操作将设置正类用例,并且您可以对它进行命名。该名称将显示在 Positive Case 标题。

    注意

    在设置正类用例时,决策树会使用当前工作区选项,该选项可定义为与工作区中当前选项匹配的“访客”(或任何顶级可计数的定义,但在大多数情况下为“访客”)。 一个正类用例的这些元素会合并为一个过滤器(并非针对多个正类用例)。

    单击 Set Positive Case 当没有选择时,将清除正类用例。

  5. (可选)选择 Set Population Filters 定义要分类的访客群体。

    如果没有应用人群过滤器,培训集会从所有访客(默认为“每个人”)中进行选择。

    注意

    单击 Show Complex Filter Description 查看“正类用例”和“群体过滤器”的过滤脚本。

  6. 添加​量度维度​和​维度元素​作为输入。

    您可以从“查找器”面板或各个维度元素的表格以拖放方式选择输入。您还可以从 Metrics 菜单。

    • 添加​量度​作为输入。

      从工具栏中选择量度。按住 Ctrl + Alt 并将一个或多个量度拖放到决策树生成器。

      该量度会作为一个输入显示在​输入(量度)​列表中,并使用一个唯一的颜色标示。

    • 添加​维度​作为输入。

      在工作区中,右键单击并选择​工具 > 查找器,然后在​搜索​字段中输入维度名称。按住 Ctrl + Alt,选择一个维度,并将该维度拖放到决策树生成器。

      该维度将显示在​输入(维度)​列表中,并使用一个唯一的颜色标示。

    • 添加​维度元素​作为输入。

      在工作区中,右键单击并选择一个“维度”表格。选择“维度元素”,按住 Ctrl + Alt,并将所选元素拖放到决策树生成器。

      维度元素会显示在​输入(元素)​列表中,并使用一个唯一的颜色标示。

    重要

    您最多可以选择14个要评估的输入。 如果添加的输入过多,那么会显示一则错误消息。

  7. 选择 Go 中。

    将根据所选的维度和量度构建决策树。简单量度(例如“购物车加货”)构建速度较快,复杂维度(例如包含多个数据点的“访问持续时间”)构建速度较慢,会在转化时显示完成百分比。然后会对树图进行修剪并打开以供用户交互。维度和量度输入将采用与节点名称相同的颜色标示。

    如果树已经过修剪,且经过修剪的分支后含有 TrueFalse 预测,则叶节点显示为绿色 (true) 或红色 (false)。

    注意

    从数据集中提取培训示例,以供树生成器使用。 Data Workbench 使用 80% 的采样来构建树,剩余 20% 用来评估树模型的准确度。

  8. 使用 Confusion Matrix.

    单击 Options > Confusion Matrix 查看“精度”、“召回”、“精度”和“F分数”值。 越接近 100%,分数越高。

    混淆矩阵使用值的组合提供了模型的四项准确度:

    • 实际正值 (AP)
    • 预测正值 (PP)
    • 实际负值 (AN)
    • 预测负值 (PN)
    小贴士

    这些数字是通过应用结果评分模型获得的,该模型对预扣的20%测试数据进行评分,并且已被称为真实答案。 如果得分高于 50%,则预测为正类用例(与定义的过滤器匹配)。准确度 = (TP + TN)/(TP + FP + TN + FN),取消 = TP / (TP + FN),精度 = TP / (TP + FP)。

  9. 了解决策树

    生成决策树以后,您可以查看预测路径,并识别符合定义条件的所有访客。树会根据位置和颜色标示识别每个分支的输入分割。例如,如果您选择“反向链接域”节点,指向该分割的节点会按颜色标示列在树的左侧。

    您可以选择叶节点以选择决策树的分支(规则集)。

    对于此示例:如果访问持续时间小于 1,没有营销活动,至少有一个页面查看,没有电子邮件注册,则至少有一次访问。满足条件并下订单的推测结果为 94.73%。

    决策树交互:您可以选择树上的多个节点:使用标准的 Ctrl - 单击​进行添加,或 Shift - 单击​进行删除。

    颜色标示的节点:节点的颜色与 Data Workbench 分配的输入维度和量度的颜色匹配。

    已修剪分支上叶级别的节点以亮绿色和红色标示,预测该节点为 True 或 False。

    亮绿色 表示该节点等于 true,满足所有条件。
    亮红色 表示该节点等于 false,并非满足所有条件。
  10. 保存决策树

    您可以将决策树保存为不同的格式:

    • 预测标记语言 (PMML),它是基于 XML 的文件格式,被应用程序用于描述和交换决策树模型。
    • 文本,它显示简单列和行,其中包含 true 或 false、百分数、成员数和输入值。
    • 维度​以及与预测结果元素对应的分支。

在此页面上