En savoir plus sur le Data Workbench Annonce de fin de vie.
Le Créateur de clusters comprend désormais un algorithme KMeans++ (seul l’algorithme KMeans était auparavant pris en charge) qui utilise une approche plus rapide pour rechercher des centres pour un processus de génération de clusters accéléré.
Dans le Créateur de clusters, vous pouvez maintenant sélectionner Options > Algorithm pour sélectionner des algorithmes lors de la définition de grappes.
KMeans++ est une mise en oeuvre améliorée de l’algorithme de mise en grappe KMeans, car il fournit une meilleure initialisation des centres k initiaux. (L’algorithme KMeans d’origine choisit les centres initiaux de manière aléatoire.) KMeans++ sélectionne aléatoirement le premier centre. Les autres centres k-1 seront choisis un par un en fonction de la distance d’un point de données par rapport au centre existant le plus proche. Les points de données les plus éloignés ont une meilleure chance d’être choisis comme nouveau centre que les points de données avoisinants. Une fois le centre initial sélectionné, la procédure est exécutée exactement de la même manière que la mise en grappe KMeans d’origine.
Le workflow pour KMeans++ est exactement le même que celui pour la mise en grappe des KMeans, sauf que vous devez sélectionner Options > Algorithme > KMeans++ dans le créateur de cluster.
Chaque unité de traitement applique sa propre procédure KMeans++ sur sa propre partie de données. Si le DPU dispose de suffisamment de mémoire disponible (le ratio est configurable dans le fichier PAServer.cfg), les données des variables impliquées seront alors transférées dans la mémoire. Le reste de la sélection centrale initiale et des itérations convergentes k-1 se produisent dans la mémoire, ce qui est plus rapide que la mise en grappe précédente de KMeans.