Klusteralgoritmer clustering-algorithms
Klusteralgoritmer grupperar datapunkter i distinkta kluster baserat på deras likheter, vilket gör det möjligt för oövervakad inlärning att identifiera mönster i data. Om du vill skapa en klustringsalgoritm använder du parametern type
i OPTIONS
-satsen för att ange den algoritm som du vill använda för modellutbildning. Därefter definierar du de relevanta parametrarna som nyckelvärdepar för att finjustera modellen.
K-Means kmeans
K-Means
är en klusteralgoritm som partitionerar datapunkter till ett fördefinierat antal kluster (k). Det är en av de vanligaste algoritmerna för klustring på grund av dess enkelhet och effektivitet.
Parametrar
När du använder K-Means
kan följande parametrar anges i OPTIONS
-satsen:
MAX_ITER
20
TOL
0.0001
NUM_CLUSTERS
k
).2
DISTANCE_TYPE
euclidean
euclidean
, cosine
KMEANS_INIT_METHOD
k-means||
random
, k-means||
(En parallell version av k-means++)INIT_STEPS
k-means||
(gäller endast när KMEANS_INIT_METHOD
är k-means||
).2
PREDICTION_COL
prediction
SEED
-1689246527
WEIGHT_COL
not set
Exempel
CREATE MODEL modelname
OPTIONS(
type = 'kmeans',
MAX_ITERATIONS = 30,
NUM_CLUSTERS = 4
)
AS SELECT col1, col2, col3 FROM training-dataset;
Bisecting K-means bisecting-kmeans
Bisecting K-means är en hierarkisk klusteralgoritm som använder en delande (eller"top-down") metod. Alla observationer börjar i ett enda kluster och delas rekursivt allt eftersom hierarkin byggs. Bisecting K-means kan ofta vara snabbare än vanliga K-means, men ger vanligtvis olika klusterresultat.
Parametrar
MAX_ITER
WEIGHT_COL
1.0
.NUM_CLUSTERS
SEED
DISTANCE_MEASURE
euclidean
, cosine
MIN_DIVISIBLE_CLUSTER_SIZE
PREDICTION_COL
Exempel
Create MODEL modelname OPTIONS(
type = 'bisecting_kmeans',
) AS
select col1, col2, col3 from training-dataset
Gaussian Mixture Model gaussian-mixture-model
Gaussian Mixture Model representerar en sammansatt fördelning där datapunkter hämtas från en av k Gaussisk delfördelningar, där var och en har sin egen sannolikhet. Den används för att modellera datauppsättningar som antas genereras från en blandning av flera Gaussisk-fördelningar.
Parametrar
MAX_ITER
WEIGHT_COL
1.0
.NUM_CLUSTERS
SEED
AGGREGATION_DEPTH
PROBABILITY_COL
TOL
PREDICTION_COL
Exempel
Create MODEL modelname OPTIONS(
type = 'gaussian_mixture',
) AS
select col1, col2, col3 from training-dataset
Latent Dirichlet Allocation (LDA) latent-dirichlet-allocation
Latent Dirichlet Allocation (LDA) är en sannolikhetsmodell som hämtar den underliggande ämnesstrukturen från en dokumentsamling. Det är en hierarkisk bayesisk modell på tre nivåer med ord-, ämne- och dokumentlager. LDA använder dessa lager tillsammans med de observerade dokumenten för att skapa en latent ämnesstruktur.
Parametrar
MAX_ITER
OPTIMIZER
"online"
(Online Variational Bayes) och "em"
(Expectation-Maximization).online
, em
(skiftlägesokänslig)NUM_CLUSTERS
CHECKPOINT_INTERVAL
DOC_CONCENTRATION
EM
ska vara större än 1,0 (standard: jämnt fördelat som (50/k) + 1), vilket säkerställer symmetrisk ämnesfördelning. För optimeraren online
kan alfavärden vara 0 eller högre (standard: jämnt fördelat som 1,0/k), vilket ger en mer flexibel ämnesinitiering.KEEP_LAST_CHECKPOINT
em
används. Om du tar bort kontrollpunkten kan fel uppstå om en datapartition förloras. Kontrollpunkter tas automatiskt bort från lager när de inte längre behövs, vilket bestäms av referensinventeringen.true
true
, false
LEARNING_DECAY
online
, angiven som en exponentiell minskningsgrad mellan (0.5, 1.0]
.(0.5, 1.0]
LEARNING_OFFSET
online
som minskar vikten av tidiga iterationer så att antalet tidiga iterationer minskar.SEED
OPTIMIZE_DOC_CONCENTRATION
online
: Anger om docConcentration
(Dirichlet-parametern för dokumentämnesdistribution) ska optimeras under utbildning.false
true
, false
SUBSAMPLING_RATE
online
: den del av korpus som provats och som används i varje iteration av övertoningsdescent för minibatteri, i intervallet (0, 1]
.(0, 1]
TOPIC_CONCENTRATION
EM
, värden > 1.0 (standard = 0.1 + 1). För online
, värden ≥ 0 (standard = 1,0/k).TOPIC_DISTRIBUTION_COL
Exempel
Create MODEL modelname OPTIONS(
type = 'lda',
) AS
select col1, col2, col3 from training-dataset
Nästa steg
När du har läst det här dokumentet vet du nu hur du konfigurerar och använder olika klusteralgoritmer. Läs sedan dokumenten om klassificering och regression om du vill veta mer om andra typer av avancerade statistiska modeller.