Clustering 2.0

Il Generatore di cluster ora include un algoritmo KMeans++ (in precedenza era supportato solo l'algoritmo KMeans) che utilizza un approccio più veloce per trovare i centri per un processo di generazione dei cluster accelerato.

Algoritmi KMeans

In Generatore di cluster, ora puoi selezionare Options > Algorithm per selezionare gli algoritmi durante la definizione dei cluster.

  • KMeans. Questo algoritmo utilizza il clustering canoy per definire i centri del cluster.
  • KMeans++. Questo algoritmo espande la creazione di cluster quando viene eseguito su grandi set di dati.

KMeans++ è una migliore implementazione dell'algoritmo di clustering KMeans perché fornisce una migliore inizializzazione dei centri k iniziali. (L'algoritmo KMeans originale sceglie i centri iniziali in modo casuale.) KMeans++ seleziona il primo centro in modo casuale. I restanti centri K-1 saranno scelti uno per uno in base alla distanza che un punto di dati è al centro esistente più vicino. I punti dati più avanzati hanno maggiori possibilità di essere scelti come un nuovo centro rispetto ai punti dati vicini. Dopo aver scelto il centro iniziale, la procedura viene eseguita esattamente come il clustering KMeans originale.

Il flusso di lavoro per KMeans++ è esattamente lo stesso del flusso di lavoro per il clustering KMeans, tranne per il fatto che è necessario selezionare Opzioni > Algorithm > KMeans++ nel generatore di cluster.

NOTA

Ogni DPU esegue la propria routine KMeans++ sulla propria porzione di dati. Se la DPU ha abbastanza memoria disponibile (il rapporto è configurabile nel file PAServer.cfg), i dati delle variabili coinvolte saranno portati in memoria. La selezione iniziale del centro k-1 e le iterazioni convergenti rimanenti si verificano tutti nella memoria, che è più veloce del precedente clustering KMeans.

In questa pagina