Clustering 2.0

重要

Data Workbench 提供終了のお知らせ.

クラスタービルダーには、優先クラスター生成処理の中心を見つけるためのより高速な手法を使用する KMeans++ アルゴリズム(以前は KMeans アルゴリズムのみがサポートされていました)が含まれるようになりました。

K 平均法アルゴリズム

クラスタービルダーを選択し、 Options > Algorithm :クラスターを定義する際にアルゴリズムを選択します。

  • KMeans​に移動します。このアルゴリズムでは、キャノピークラスターリングを使用して、クラスターの中心を定義します。
  • KMeans++​に移動します。このアルゴリズムでは、大量のデータセットに対して実行した場合に、クラスターが迅速に構築されます。

KMeans++ は、KMeans クラスタリングアルゴリズムの強化実装で、k 個の初期中心をより適切に初期化します(元の KMeans アルゴリズムでは、初期中心がランダムに選択されます)。KMeans++ では、最初の中心がランダムに選択されます。残り k-1 個の中心は、データポイントと最も近い既存の中心との距離に基づいて 1 つずつ選択されます。最も遠いデータポイントは、近くのデータポイントよりも、新しい中心として選択される可能性が高くなります。初期中心を選択した後は、元の KMeans クラスタリングとまったく同じ処理が実行されます。

KMeans++ のワークフローは、クラスタービルダーで​オプションアルゴリズムKMeans++ を選択する必要がある以外、KMeans クラスタリングのワークフローとまったく同じです。

メモ

各 DPU は、独自のデータ部分に対して独自の KMeans++プロシージャを実行します。 DPU に利用可能なメモリが十分にある場合(割合は PAServer.cfg ファイルで設定できます)、必要な変数のデータをメモリに読み込みます。最初の中心のうち残りの k-1 個の選択と収束するまでの反復は、すべてメモリ内で実行されます。これにより、以前の K 平均法クラスタリングよりも速く実行されます。

このページ