デシジョンツリーの構築

重要

Data Workbench 提供終了のお知らせ.

ポジティブケースを指定し、データを評価する指標とディメンション入力を追加して、デシジョンツリーを設定し、デシジョンツリーを調べます。

デシジョンツリーを構築するには、次の手順に従います。

  1. 新しいワークスペースを開きます。

    新しいワークスペースを開いたら、追加一時的にロック解除​をクリックする必要がある場合があります。

  2. デシジョンツリービルダーを開くには、右クリックします。 Visualization > 予測分析 > 分類 > デシジョンツリービルダー.

  3. ポジティブケース​を設定します。

    デシジョンツリーのポジティブケースを定義するには、ファインダーでディメンションを、またはテーブルでディメンションエレメントを選択するか、「フィルターを作成」でフィルターを作成します。実際には、ポジティブケースは、フィルター、ディメンション、エレメント、Data Workbench のすべてのタイプのビジュアライゼーション値など、ワークスペース内の複数の選択を組み合わせて定義できます。

    • ポジティブケースとして​フィルターを作成し、適用​します。ワークスペース内で右クリックし、「 」を選択します。 Tools > Filter Editor フィルターを設計して適用する場合。

    • ポジティブケースとして​ディメンション​を追加します。ワークスペースで右クリックし、「 」を選択します。 ツール > ファインダー ( または選択 Add > Finders をクリックします )。 「検索」フィールドにディメンション名を入力し、ディメンションを選択します。

    • ポジティブケースとして​指標​を追加します。右クリックして「 」を選択します。 ツール > ファインダー または、 Add > Finders 左側のペインで、指標テーブルを開きます。 ポジティブケースとして指標を選択します。

    • ポジティブケースとして​ディメンションエレメント​を追加します。ワークスペース内で右クリックし、「 」を選択します。 Table ディメンションエレメントを開くには、ディメンションエレメントから「 」を選択して、ポジティブケースを設定します。

  4. クリック Options > Set Positive Case.

    ここではポジティブケースが設定され、名前を付けることができます。名前は、 Positive Case ワークスペースの見出し。

    メモ

    ポジティブケースを設定すると、デシジョンツリーは現在のワークスペース選択を使用します。これは、訪問者(または最上位の可算が定義されているが、ほとんどの場合は訪問者)として定義できます。 これらは、(複数のポジティブケースではなく)単一のポジティブケースの単一のフィルターとして組み合わせられます。

    クリック Set Positive Case 何も選択しない場合は、ポジティブケースがクリアされます。

  5. (オプション)を選択します。 Set Population Filters :分類する訪問者の母集団を定義します。

    母集団フィルターが適用されない場合、トレーニングセットはすべての訪問者から取得されます(デフォルトは「全員」です)。

    メモ

    次をクリック: Show Complex Filter Description をクリックして、ポジティブケースおよび母集団フィルターのフィルタリングスクリプトを表示します。

  6. 入力として​指標ディメンション​および​ディメンションエレメント​を追加します。

    入力を選択するには、ファインダーパネルから、または個々のディメンションエレメントのテーブルからドラッグ&ドロップします。また、 Metrics 」メニューを使用します。

    • 入力として​指標​を追加します。

      ツールバーから「指標」を選択します。Ctrl + Alt キーを押しながら、1 つまたは複数の指標をデシジョンツリービルダーにドラッグします。

      指標は、一意に色分けされた入力として​入力(指標)リスト​に表示されます。

    • 入力として​ディメンション​を追加します。

      ワークスペース内で右クリックし、ツールファインダー​を選択して、ディメンション名を「検索」フィールドに入力します。 Ctrl + Alt キーを押しながら、ディメンションを選択して、ディメンションをデシジョンツリービルダーにドラッグします。

      ディメンションは、一意に色分けされて、入力(ディメンション)​リストに表示されます。

    • 入力として​ディメンションエレメント​を追加します。

      ワークスペースで、右クリックして、ディメンションテーブルを選択します。ディメンションエレメントを選択し、Ctrl + Alt キーを押しながら、選択したエレメントをデシジョンツリービルダーにドラッグします。

      ディメンション要素は、一意に色分けされて、入力(要素)​リストに表示されます。

    重要

    評価する入力は最大で 14 個まで選択できます。 追加した入力が多すぎると、エラーメッセージが表示されます。

  7. 選択 Go をクリックします。

    選択したディメンションと指標に基づいてデシジョンツリーが構築されます。買い物かごへの追加などの単純な指標の場合はすぐに作成されますが、複数のデータポイントを持つ滞在時間などの複雑なディメンションの場合は作成に時間がかかり、変換中に完了の割合が表示されます。その後、ツリーマップがプルーニングされ、ユーザーが操作できるように開きます。ディメンションと指標の入力は、ノード名に合わせて色分けされます。

    ツリーがプルーニングされている場合、およびプルーニングされた分岐の後に予測が truefalse が表示されている場合、リーフノードは緑色(true)または赤色(false)で表示されます。

    メモ

    トレーニングサンプルは、使用するツリービルダーのデータセットから取得されます。 Data Workbench では、サンプルの 80%を使用してツリーを構築し、残りの 20%を使用してツリーモデルの正解率を評価します。

  8. を使用して精度を検証する Confusion Matrix.

    クリック Options > Confusion Matrix 「精度」、「再現率」、「精度」、「F スコア」の値を表示します。 100%に近いほど、よいスコアです。

    混同行列は、次の値の組み合わせを使用して、モデルの正解率の 4 カウントを付与します。

    • 実際の陽性(AP)
    • 予測された陽性(PP)
    • 実際の陰性(AN)
    • 予測された陰性(PN)
    ヒント

    これらの数値は、20%のテストデータを除外し、既に真の答えとして知られている結果のスコアモデルを適用することで取得されます。 スコアが 50%を超える場合、(定義されたフィルターに一致する)ポジティブケースとして予測されます。このとき、正解率 = (TP + TN)/(TP + FP + TN + FN)、再現率 = TP / (TP + FN)、精度 = TP / (TP + FP) です。

  9. デシジョンツリーを調べます

    デシジョンツリーが生成されたら、予測のパスを確認し、定義された基準を満たすすべての訪問者を特定することができます。ツリーでは、位置と色分けに基づいて各分岐の入力分岐が識別されます。例えば、「参照ドメイン」ノードを選択すると、その分岐につながっているノードがツリーの左側に色分けされて表示されます。

    リーフノードを選択すると、デシジョンツリーの分岐(ルールセット)を選択できます。

    この例では、訪問期間が 1 未満で、キャンペーンが存在せず、ページビュー数が少なくとも 1 回はあり、電子メールのサインアップがなく、訪問回数が少なくとも 1 回はある場合、この基準を満たし、注文が行われる予測確率は 94.73%です。

    デシジョンツリーの操作:ツリーの複数のノードを選択する場合は、普通に Ctrl キーを押しながらクリックすると追加でき、Shift キーを押しながらクリックすると削除できます。

    色分けされたノード:ノードの色は、Data Workbench によって割り当てられた入力のディメンションと指標の色と一致しています。

    プルーニングされた分岐のリーフレベルにある明るい緑色と赤色のノードでは、ノードが true または false として予測されています。

    明るい緑色 ノードが true で、すべての条件が満たされていることを示します。
    明るい赤色 ノードが false で、すべての条件が満たされていないことを示します。
  10. デシジョンツリーを保存します

    デシジョンツリーは、様々な形式で保存できます。

    • 予測マークアップ言語(PMML):アプリケーションでデシジョンツリーモデルを記述および交換するために使用される XML ベースのファイル形式。
    • true または false、パーセンテージ、メンバーの数および入力値のシンプルな列と行を表示する​テキスト
    • ディメンション​と、予測結果のエレメントに対応する分岐。

このページ