Bisecting K-means

Bisecting K-means ist ein hierarchischer Clustering-Algorithmus, der einen teilenden Ansatz (oder einen „Top-Down“-Ansatz) verwendet. Alle Beobachtungen beginnen in einem einzigen Cluster, und Aufspaltungen werden rekursiv durchgeführt, während die Hierarchie erstellt wird. Bisecting K-means kann häufig schneller sein als normale K-Means, liefert aber normalerweise andere Cluster-Ergebnisse.

Parameter

ParameterBeschreibungStandardwertMögliche Werte
MAX_ITERDie maximale Anzahl von Iterationen, die der Algorithmus ausführt.20(>= 0)
WEIGHT_COLDer Spaltenname für die Gewichtung der Instanz. Wenn sie nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt.NICHT FESTGELEGTBeliebige Zeichenfolge
NUM_CLUSTERSDie gewünschte Anzahl von Blattclustern. Die tatsächliche Zahl könnte kleiner sein, wenn keine teilbaren Cluster verbleiben.4(> 1)
SEEDDer zufällige Seed, der zum Steuern zufälliger Prozesse im Algorithmus verwendet wird.NICHT FESTGELEGTBeliebige 64-Bit-Zahl
DISTANCE_MEASUREDas Entfernungsmaß, mit dem die Ähnlichkeit zwischen Punkten berechnet wird.„euklidisch“euclidean, cosine
MIN_DIVISIBLE_CLUSTER_SIZEDie Mindestanzahl von Punkten (wenn >= 1,0) oder der Mindestprozentsatz von Punkten (wenn < 1,0), die erforderlich sind, damit ein Cluster teilbar ist.1,0(>= 0)
PREDICTION_COLDer Spaltenname für die Prognoseausgabe.„Prognose“Beliebige Zeichenfolge

Beispiel

Create MODEL modelname OPTIONS(
  type = 'bisecting_kmeans',
) AS
  select col1, col2, col3 from training-dataset

Gaussian Mixture Model

Gaussian Mixture Model stellt eine zusammengesetzte Verteilung dar, bei der Datenpunkte aus einer von k Gaußschen Unterverteilungen mit jeweils eigener Wahrscheinlichkeit gezogen werden. Er wird zur Modellierung von Datensätzen verwendet, bei denen angenommen wird, dass sie aus einer Mischung mehrerer Gaußscher Verteilungen erzeugt werden.

Parameter

ParameterBeschreibungStandardwertMögliche Werte
MAX_ITERDie maximale Anzahl von Iterationen, die der Algorithmus ausführen soll.100(>= 0)
WEIGHT_COLDer Spaltenname, z. B., Gewichtungen. Wenn sie nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt.NICHT FESTGELEGTBeliebiger gültiger Spaltenname oder leer
NUM_CLUSTERSDie Anzahl der unabhängigen Gaußschen Verteilungen im Mischungsmodell.2(> 1)
SEEDDer zufällige Startwert, der zur Steuerung zufälliger Prozesse im Algorithmus verwendet wird.NICHT FESTGELEGTBeliebige 64-Bit-Zahl
AGGREGATION_DEPTHDieser Parameter steuert die Tiefe der Aggregationsbäume, die während der Berechnung verwendet werden.2(>= 1)
PROBABILITY_COLDer Spaltenname für prognostizierte bedingte Klassenwahrscheinlichkeiten. Diese sollten als Konfidenzwerte und nicht als exakte Wahrscheinlichkeiten behandelt werden.„Wahrscheinlichkeit“Beliebige Zeichenfolge
TOLDie Konvergenztoleranz für iterative Algorithmen.0,01(>= 0)
PREDICTION_COLDer Spaltenname für die Prognoseausgabe.„Prognose“Beliebige Zeichenfolge

Beispiel

Create MODEL modelname OPTIONS(
  type = 'gaussian_mixture',
) AS
  select col1, col2, col3 from training-dataset

Latent Dirichlet Allocation (LDA)

Latent Dirichlet Allocation (LDA) ist ein probabilistisches Modell, das die zugrunde liegende Themenstruktur aus einer Sammlung von Dokumenten erfasst. Es handelt sich um ein hierarchisches Bayes'sches Modell mit drei Ebenen mit Wort-, Thema- und Dokumentebenen. LDA verwendet diese Ebenen zusammen mit den beobachteten Dokumenten, um eine latente Themenstruktur zu erstellen.

Parameter

ParameterBeschreibungStandardwertMögliche Werte
MAX_ITERDie maximale Anzahl von Iterationen, die der Algorithmus ausführt.20(>= 0)
OPTIMIZERDer Optimierer oder Inferenzalgorithmus, der zur Schätzung des LDA-Modells verwendet wird. Unterstützte Optionen sind "online" (Online-Variantenreihen) und "em" (Erwartungsmaximierung).„Online“online, em (ignoriert Groß- und Kleinschreibung)
NUM_CLUSTERSDie Anzahl der zu erstellenden Cluster (k).10(> 1)
CHECKPOINT_INTERVALGibt an, wie oft die zwischengespeicherten Knoten-IDs überprüft werden sollen.10(>= 1)
DOC_CONCENTRATIONDer Konzentrationsparameter („Alpha„) bestimmt die vorherigen Annahmen bezüglich der Themenverteilung in Dokumenten. Das Standardverhalten wird vom Optimizer bestimmt. Für den EM Optimizer sollten Alpha-Werte größer als 1,0 sein (Standard: gleichmäßig verteilt als (50/k) + 1), um symmetrische Themenverteilungen sicherzustellen. Für den online Optimizer können Alpha-Werte 0 oder höher sein (Standard: gleichmäßig verteilt als 1,0/k), was eine flexiblere Themeninitialisierung ermöglicht.AutomatischEin einzelner Wert oder Vektor der Länge k, wobei Werte > 1 für EM sind
KEEP_LAST_CHECKPOINTGibt an, ob der letzte Checkpoint bei Verwendung des em beibehalten werden soll. Das Löschen des Checkpoints kann zu Fehlern führen, wenn eine Datenpartition verloren geht. Checkpoints werden automatisch aus dem Speicher entfernt, wenn sie nicht mehr benötigt werden, wie durch Referenzzählung ermittelt.truetrue, false
LEARNING_DECAYLernrate für den online Optimizer, festgelegt als exponentielle Abklingrate zwischen (0.5, 1.0].0,51(0.5, 1.0]
LEARNING_OFFSETEin Lernparameter für den online Optimizer, der frühe Iterationen heruntergewichtet, damit frühe Iterationen weniger zählen.1024(> 0)
SEEDZufälliger Seed zur Steuerung zufälliger Prozesse im Algorithmus.NICHT FESTGELEGTBeliebige 64-Bit-Zahl
OPTIMIZE_DOC_CONCENTRATIONFür den online-Optimizer: ob der docConcentration (Dirichlet-Parameter für die Verteilung von Dokumenten - Themenverteilung) während des Trainings optimiert werden soll.falsetrue, false
SUBSAMPLING_RATEFür den online-Optimizer: der Anteil des Korpus, der bei jeder Iteration des Abstiegs des Mini-Batch-Gradienten abgetastet und verwendet wird, im Bereich (0, 1].0,05(0, 1]
TOPIC_CONCENTRATIONDer Konzentrationsparameter („Beta“ oder „Beta„) definiert die früheren Annahmen hinsichtlich der Verteilung der Themen über Begriffe. Der Standardwert wird vom Optimizer bestimmt: Für EM Werte > 1,0 (Standard = 0,1 + 1). Zum online Werte ≥ 0 (Standard = 1,0/k).AutomatischEin einzelner Wert oder Vektor der Länge k, wobei Werte > 1 für EM sind
TOPIC_DISTRIBUTION_COLDieser Parameter gibt die geschätzte Verteilung der Themenmischung für jedes Dokument aus, in der Literatur oft als „Theta“ bezeichnet. Bei leeren Dokumenten wird ein Vektor von Nullen zurückgegeben. Die Schätzungen werden mittels variativer Approximation („Gamma„) abgeleitet.NICHT FESTGELEGTBeliebige Zeichenfolge

Beispiel

Create MODEL modelname OPTIONS(
  type = 'lda',
) AS
  select col1, col2, col3 from training-dataset