ランダムフォレストでは、デシジョンツリーをどのように使用しますか?
デシジョンツリーは効果的な統計ツールになりますが、デメリットもあります。最も大きなデメリットは、データの「オーバーフィッティング」が生じ、1 つのデシジョンツリーで、最初のデシジョンツリーの構築に使用されていない将来のデータの予測精度が悪くなる場合があるという点です。これは、統計学習におけるバイアス/バリアンストレードオフと呼ばれる問題です。ランダムな森は、この過剰な課題を克服するのに役立ちます。 ランダムフォレストは簡単に言うと、同一のデータセットを基に、わずかに違う形で構築されたデシジョンツリーの集合で、「投票」によって単一のデシジョンツリーよりも優れたモデルを生成します。ツリーは、置き換え後の訪問レコードのサブセット(バギングと呼ばれます)をランダムに選択することと、属性のサブセットをランダムに選択することによって構築されます。これにより、フォレストは少し異なるデシジョンツリーで構成されます。 この手法では、ランダムフォレストに構築されたデシジョンツリーにわずかなバリエーションが生まれます。この適度な量のバリエーションを追加することで、アルゴリズムの予測精度が高まります。
Target のパーソナライゼーションアルゴリズムでは、ランダムフォレストをどのように使用しますか。
モデルの構築方法
次の図は、Auto-Target と Automated Personalization のアクティビティでモデルがどのように構築されるかを示したものです。
- Target は、エクスペリエンスやオファーをランダムに提供しながら、訪問者のデータを収集します
- Target が大量のデータにヒットした後、Target は機能エンジニアリングを実行します
- Target は、エクスペリエンスまたはオファーごとにランダムフォレスト モデルを作成します
- モデル Target しきい値の品質スコアを満たしているかどうかを確認します
- Target がモデルを実稼動環境にプッシュして、今後のトラフィックをパーソナライズします
Target は、自動的に収集されるデータと、ユーザーから提供されるカスタムデータを使用して、パーソナライゼーションアルゴリズムを構築します。 このモデルによって、訪問者に表示する最適なエクスペリエンスやオファーが予測されます。通常、エクスペリエンス(Auto-Target アクティビティの場合)またはオファー(Automated Personalization アクティビティの場合)ごとに 1 つのモデルが構築されます。 次に、最も高 Target 予測成功指標(コンバージョン率など)を生成するエクスペリエンスまたはオファーが表示されます。 これらのモデルは、予測に使用する前に、ランダムに割り当てられた訪問を対象にトレーニングをおこなう必要があります。そのため、アクティビティが開始されると、パーソナライゼーションアルゴリズムの準備が整うまで、パーソナライズ対象のグループに入っている訪問者にも複数のエクスペリエンスまたはオファーが配信されます。
各モデルは、アクティビティで使用される前に、訪問者の行動の予測に適していることを確認するために、検証する必要があります。 モデルは、カーブの下の領域(AUC)に基づいて検証されます。 検証が必要なため、パーソナライズされたエクスペリエンスの提供をモデルが開始する正確な時間は、データの詳細に依存します。 トラフィックのプランニングの観点からの目安としては、モデルが有効になるまでには、最低限のコンバージョン数が必要になるのが一般的です。
エクスペリエンスまたはオファーのモデルが有効になると、エクスペリエンスまたはオファー名の左にある時計のアイコンが緑色のチェックボックスに変わります。少なくとも 2 つのエクスペリエンスまたはオファーに有効なモデルがある場合、一部の訪問はパーソナライズされ始めます。