Algoritmen groeperen clustering-algorithms
Algoritmen groeperen gegevenspunten in verschillende clusters op basis van hun gelijkenissen, waardoor ongecontroleerde leerprocessen patronen binnen de gegevens kunnen detecteren. Als u een clusteringalgoritme wilt maken, gebruikt u de parameter type in de OPTIONS -component om het algoritme op te geven dat u wilt gebruiken voor modeltraining. Vervolgens definieert u de relevante parameters als sleutel-waardeparen om het model te verfijnen.
K-Means kmeans
K-Means is een groeperend algoritme dat gegevenspunten in een vooraf bepaald aantal clusters (k) verdeelt. Het is een van de meest gebruikte algoritmes voor clustering vanwege de eenvoud en efficiëntie ervan.
Parameters
Wanneer u K-Means gebruikt, kunnen de volgende parameters worden ingesteld in de OPTIONS -component:
MAX_ITER20TOL0.0001NUM_CLUSTERSk).2DISTANCE_TYPEeuclideaneuclidean, cosineKMEANS_INIT_METHODk-means||random , k-means|| (Een parallelle versie van k-means++)INIT_STEPSk-means|| (alleen van toepassing als KMEANS_INIT_METHOD is k-means|| ).2PREDICTION_COLpredictionSEED-1689246527WEIGHT_COLnot setVoorbeeld
CREATE MODEL modelname
OPTIONS(
type = 'kmeans',
MAX_ITERATIONS = 30,
NUM_CLUSTERS = 4
)
AS SELECT col1, col2, col3 FROM training-dataset;
Bisecting K-means bisecting-kmeans
Bisecting K-means is een hiërarchisch groeperend algoritme dat een verdeelde (of "top-down") benadering gebruikt. Alle waarnemingen beginnen in één cluster en splitsingen worden recursief uitgevoerd terwijl de hiërarchie wordt opgebouwd. Bisecting K-means kan vaak sneller zijn dan normale K-middelen, maar het veroorzaakt typisch verschillende clusterresultaten.
Parameters
MAX_ITERWEIGHT_COL1.0 .NUM_CLUSTERSSEEDDISTANCE_MEASUREeuclidean, cosineMIN_DIVISIBLE_CLUSTER_SIZEPREDICTION_COLVoorbeeld
Create MODEL modelname OPTIONS(
type = 'bisecting_kmeans',
) AS
select col1, col2, col3 from training-dataset
Gaussian Mixture Model gaussian-mixture-model
Gaussian Mixture Model staat voor een samengestelde distributie waarbij gegevenspunten worden getekend op basis van een van de Gaussiaanse subdistributies in k, elk met een eigen waarschijnlijkheid. Het wordt gebruikt om gegevenssets te modelleren die verondersteld worden te worden geproduceerd van een mengsel van verscheidene Gaussiaanse distributies.
Parameters
MAX_ITERWEIGHT_COL1.0 .NUM_CLUSTERSSEEDAGGREGATION_DEPTHPROBABILITY_COLTOLPREDICTION_COLVoorbeeld
Create MODEL modelname OPTIONS(
type = 'gaussian_mixture',
) AS
select col1, col2, col3 from training-dataset
Latent Dirichlet Allocation (LDA) latent-dirichlet-allocation
Latent Dirichlet Allocation (LDA) is een probabilistisch model dat de onderliggende onderwerpstructuur van een inzameling van documenten vangt. Het is een hiërarchisch Bayesiaans model met drie niveaus met woord, onderwerp, en documentlagen. LDA gebruikt deze lagen, samen met de waargenomen documenten, om een latente onderwerpstructuur te bouwen.
Parameters
MAX_ITEROPTIMIZER"online" (Online Variationele Bayes) en "em" (Verwachting-Maximalisatie).online , em (hoofdlettergevoelig)NUM_CLUSTERSCHECKPOINT_INTERVALDOC_CONCENTRATIONEM optimizer, zouden de alpha- waarden groter moeten zijn dan 1.0 (gebrek: uniform verdeeld als (50/k) + 1), die symmetrische onderwerpverdelingen verzekeren. Voor online optimizer, kunnen alpha- waarden 0 of groter zijn (gebrek: uniform verdeeld als 1.0/k), die voor flexibelere onderwerpinitialisatie toestaan.KEEP_LAST_CHECKPOINTem optimizer wordt gebruikt. Het verwijderen van het controlepunt kan fouten veroorzaken als een gegevensverdeling verloren gaat. Controlepunten worden automatisch uit de opslag verwijderd wanneer ze niet meer nodig zijn, zoals bepaald door tellen van referenties.truetrue, falseLEARNING_DECAYonline optimizer, die als exponentiële dalingssnelheid tussen (0.5, 1.0] wordt geplaatst.(0.5, 1.0]LEARNING_OFFSETonline optimalisator die vroege herhalingen vermindert om vroege herhalingen minder te maken.SEEDOPTIMIZE_DOC_CONCENTRATIONonline optimizer: of de parameter docConcentration (Dirichlet-parameter voor document-onderwerp-distributie) tijdens de training moet worden geoptimaliseerd.falsetrue, falseSUBSAMPLING_RATEonline optimizer: de fractie van de corpus die wordt gesampled en gebruikt in elke iteratie van een mini-batch-verloop, in het bereik (0, 1] .(0, 1]TOPIC_CONCENTRATIONEM worden waarden > 1,0 gebruikt (standaardwaarde = 0,1 + 1). Voor online, waarden ≥ 0 (standaardwaarde = 1,0/k).TOPIC_DISTRIBUTION_COLVoorbeeld
Create MODEL modelname OPTIONS(
type = 'lda',
) AS
select col1, col2, col3 from training-dataset
Volgende stappen
Na het lezen van dit document, weet u nu hoe te om diverse het groeperen algoritmen te vormen en te gebruiken. Daarna, verwijs naar de documenten op classificatie en regressie om over andere soorten geavanceerde statistische modellen te leren.