Clustering 2.0

Der Cluster Builder enthält jetzt einen KMeans+±Algorithmus (bisher wurde nur der KMeans-Algorithmus unterstützt), der einen schnelleren Ansatz bei der Suche nach Zentren für einen beschleunigten Cluster-Generierungsprozess nutzt.

KMeans-Algorithmen

Im Cluster Builder können Sie jetzt Options > Algorithm auswählen, um Algorithmen beim Definieren von Clustern auszuwählen.

  • KMeans. Dieser Algorithmus verwendet Canopy-Clustering, um die Zentren des Clusters zu definieren.
  • KMeans++. Dieser Algorithmus beschleunigt die Clusterbildung bei der Ausführung mit großen Datensätzen.

KMeans++ ist eine verbesserte Implementierung des KMeans-Clustering-Algorithmus, da es eine bessere Initialisierung der anfänglichen k-Zentren ermöglicht. (Der ursprüngliche KMeans-Algorithmus wählt anfängliche Zentren zufällig aus.) KMeans++ wählt das erste Zentrum zufällig aus. Die verbleibenden k-1-Zentren werden einzeln ausgewählt, je nachdem, wie weit ein Datenpunkt vom nächstgelegenen Rechenzentrum entfernt ist. Die am weitesten entfernten Datenpunkte haben eine bessere Chance, als ein neues Zentrum ausgewählt zu werden als nahe gelegene Datenpunkte. Nach der Auswahl des ersten Zentrums wird das Verfahren genau so durchgeführt wie das ursprüngliche KMeans-Clustering.

Der Workflow für KMeans++ ist mit dem Workflow für KMeans-Clustering identisch, allerdings müssen Sie im Cluster-Builder Optionen > Algorithm > KMeans+ auswählen.

HINWEIS

Jede DPU führt ihr eigenes KMeans+±Verfahren für ihren eigenen Datenbereich aus. Wenn die DPU über ausreichend verfügbaren Speicher verfügt (das Verhältnis ist in der Datei PAServer.cfg konfigurierbar), werden die Daten der beteiligten Variablen in den Speicher gebracht. Die verbleibenden k-1 anfänglichen Mittelauswahl und konvergierenden Iterationen erfolgen alle im Speicher, was schneller ist als das vorherige KMeans Clustering.

Auf dieser Seite