Clusterisation 2.0

Le Créateur de clusters comprend désormais un algorithme KMeans++ (seul l’algorithme KMeans était auparavant pris en charge) qui utilise une approche plus rapide pour rechercher des centres pour un processus de génération de clusters accéléré.

Algorithmes KMeans

Dans Cluster Builder, vous pouvez désormais sélectionner Options > Algorithm pour sélectionner des algorithmes lors de la définition de grappes.

  • KMeans. Cet algorithme utilise la mise en grappe de canopées pour définir les centres de la grappe.
  • KMeans++. Cet algorithme accélère la création de grappes lors de l’exécution sur de grands ensembles de données.

KMeans++ est une mise en oeuvre améliorée de l’algorithme de mise en grappe KMeans, car il fournit une meilleure initialisation des centres k initiaux. (L’algorithme KMeans d’origine choisit les centres initiaux de manière aléatoire.) KMeans++ sélectionne aléatoirement le premier centre. Les autres centres k-1 seront choisis un par un en fonction de la distance d’un point de données par rapport au centre existant le plus proche. Les points de données les plus éloignés ont une meilleure chance d’être choisis comme nouveau centre que les points de données avoisinants. Une fois le centre initial sélectionné, la procédure est exécutée exactement de la même manière que la mise en grappe KMeans d’origine.

Le workflow pour KMeans++ est exactement le même que celui de la mise en grappe des KMeans, sauf que vous devez sélectionner Options > Algorithme > KMeans++ dans le créateur de grappe.

REMARQUE

Chaque unité de traitement applique sa propre procédure KMeans++ sur sa propre partie de données. Si le DPU dispose de suffisamment de mémoire disponible (le ratio est configurable dans le fichier PAServer.cfg), les données des variables impliquées seront alors transférées dans la mémoire. Le reste de la sélection centrale initiale et des itérations convergentes k-1 se produisent dans la mémoire, ce qui est plus rapide que la mise en grappe précédente de KMeans.

Sur cette page