Documentatie Experience Platform Gids voor Query Service

Algoritmen groeperen clustering-algorithms

Last update: Tue Oct 14 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

Onderwerpen:
Query's

Gemaakt voor:

Ontwikkelaar

Algoritmen groeperen gegevenspunten in verschillende clusters op basis van hun gelijkenissen, waardoor ongecontroleerde leerprocessen patronen binnen de gegevens kunnen detecteren. Als u een clusteringalgoritme wilt maken, gebruikt u de parameter type in de OPTIONS -component om het algoritme op te geven dat u wilt gebruiken voor modeltraining. Vervolgens definieert u de relevante parameters als sleutel-waardeparen om het model te verfijnen.

NOTE

Zorg ervoor dat u de parametervereisten voor het gekozen algoritme begrijpt. Als u ervoor kiest om bepaalde parameters niet aan te passen, past het systeem standaardinstellingen toe. Raadpleeg de relevante documentatie voor een beter begrip van de functie en standaardwaarden van elke parameter.

K-Means kmeans

K-Means is een groeperend algoritme dat gegevenspunten in een vooraf bepaald aantal clusters (k) verdeelt. Het is een van de meest gebruikte algoritmes voor clustering vanwege de eenvoud en efficiëntie ervan.

Parameters

Wanneer u K-Means gebruikt, kunnen de volgende parameters worden ingesteld in de OPTIONS -component:

Parameter

Beschrijving

Standaardwaarde

Mogelijke waarden

MAX_ITER

Het aantal herhalingen dat het algoritme moet uitvoeren.

20

(>= 0)

TOL

Het convergentietolerantieniveau.

0.0001

(>= 0)

NUM_CLUSTERS

Het aantal clusters dat moet worden gemaakt (k).

2

(>1)

DISTANCE_TYPE

Het algoritme dat wordt gebruikt om de afstand tussen twee punten te berekenen. De waarde is hoofdlettergevoelig.

euclidean

euclidean, cosine

KMEANS_INIT_METHOD

Het initialisatiealgoritme voor de clustercentra.

k-means||

random , k-means|| (Een parallelle versie van k-means++)

INIT_STEPS

Het aantal stappen voor de initialisatiemodus k-means|| (alleen van toepassing als KMEANS_INIT_METHOD is k-means|| ).

2

(>0)

PREDICTION_COL

De naam van de kolom waar de voorspellingen zullen worden opgeslagen.

prediction

Willekeurige tekenreeks

SEED

Een willekeurig zaad voor reproduceerbaarheid.

-1689246527

Willekeurig 64-bits getal

WEIGHT_COL

De naam van de kolom die wordt gebruikt voor bijvoorbeeld gewichten. Indien niet ingesteld, worden alle instanties even gewogen.

not set

N.v.t.

Voorbeeld

CREATE MODEL modelname
OPTIONS(
  type = 'kmeans',
  MAX_ITERATIONS = 30,
  NUM_CLUSTERS = 4
)
AS SELECT col1, col2, col3 FROM training-dataset;

Bisecting K-means bisecting-kmeans

Bisecting K-means is een hiërarchisch groeperend algoritme dat een verdeelde (of "top-down") benadering gebruikt. Alle waarnemingen beginnen in één cluster en splitsingen worden recursief uitgevoerd terwijl de hiërarchie wordt opgebouwd. Bisecting K-means kan vaak sneller zijn dan normale K-middelen, maar het veroorzaakt typisch verschillende clusterresultaten.

Parameters

Parameter

Beschrijving

Standaardwaarde

Mogelijke waarden

MAX_ITER

Het maximumaantal herhalingen dat het algoritme uitvoert.

(>= 0)

WEIGHT_COL

De kolomnaam voor bijvoorbeeld gewichten. Als deze niet is ingesteld of leeg is, worden alle instantiegewichten behandeld als 1.0 .

NIET INGESTELD

Willekeurige tekenreeks

NUM_CLUSTERS

Het gewenste aantal bladclusters. Het werkelijke aantal kan kleiner zijn als er geen verdeelbare clusters overblijven.

(> 1)

SEED

Het willekeurige zaadgetal dat wordt gebruikt voor de besturing van willekeurige processen in het algoritme.

NIET INGESTELD

Willekeurig 64-bits getal

DISTANCE_MEASURE

De afstandsmaat die wordt gebruikt om gelijkenis tussen punten te berekenen.

"euclidean"

euclidean, cosine

MIN_DIVISIBLE_CLUSTER_SIZE

Het minimumaantal punten (indien >= 1,0) of het minimumpercentage punten (indien < 1,0) dat vereist is om een cluster te verdelen.

1,0

(>= 0)

PREDICTION_COL

De kolomnaam voor voorspellingsuitvoer.

"voorspelling"

Willekeurige tekenreeks

Voorbeeld

Create MODEL modelname OPTIONS(
  type = 'bisecting_kmeans',
) AS
  select col1, col2, col3 from training-dataset

Gaussian Mixture Model gaussian-mixture-model

Gaussian Mixture Model staat voor een samengestelde distributie waarbij gegevenspunten worden getekend op basis van een van de Gaussiaanse subdistributies in k, elk met een eigen waarschijnlijkheid. Het wordt gebruikt om gegevenssets te modelleren die verondersteld worden te worden geproduceerd van een mengsel van verscheidene Gaussiaanse distributies.

Parameters

Parameter

Beschrijving

Standaardwaarde

Mogelijke waarden

MAX_ITER

Het maximumaantal herhalingen voor het uit te voeren algoritme.

100

(>= 0)

WEIGHT_COL

De kolomnaam, bijvoorbeeld, gewichten. Als deze niet is ingesteld of leeg is, worden alle instantiegewichten behandeld als 1.0 .

NIET INGESTELD

Elke geldige kolomnaam of leeg

NUM_CLUSTERS

Het aantal onafhankelijke Gaussiaanse distributies in het mengselmodel.

(> 1)

SEED

Het willekeurige zaad dat wordt gebruikt om willekeurige processen in het algoritme te controleren.

NIET INGESTELD

Willekeurig 64-bits getal

AGGREGATION_DEPTH

Deze parameter bepaalt de diepte van de aggregatiebomen die tijdens de berekening worden gebruikt.

(>= 1)

PROBABILITY_COL

De kolomnaam voor voorspelde klasse voorwaardelijke kansen. Deze moeten worden behandeld als betrouwbaarheidsscores in plaats van als exacte waarschijnlijkheid.

"waarschijnlijkheid"

Willekeurige tekenreeks

TOL

De convergentietolerantie voor herhalende algoritmen.

0,01

(>= 0)

PREDICTION_COL

De kolomnaam voor voorspellingsuitvoer.

"voorspelling"

Willekeurige tekenreeks

Voorbeeld

Create MODEL modelname OPTIONS(
  type = 'gaussian_mixture',
) AS
  select col1, col2, col3 from training-dataset

Latent Dirichlet Allocation (LDA) latent-dirichlet-allocation

Latent Dirichlet Allocation (LDA) is een probabilistisch model dat de onderliggende onderwerpstructuur van een inzameling van documenten vangt. Het is een hiërarchisch Bayesiaans model met drie niveaus met woord, onderwerp, en documentlagen. LDA gebruikt deze lagen, samen met de waargenomen documenten, om een latente onderwerpstructuur te bouwen.

Parameters

Parameter

Beschrijving

Standaardwaarde

Mogelijke waarden

MAX_ITER

Het maximumaantal herhalingen dat het algoritme uitvoert.

(>= 0)

OPTIMIZER

De optimalisator of het afleidingsalgoritme die wordt gebruikt om het LDA-model te schatten. Ondersteunde opties zijn "online" (Online Variationele Bayes) en "em" (Verwachting-Maximalisatie).

"online"

online , em (hoofdlettergevoelig)

NUM_CLUSTERS

Het aantal clusters dat moet worden gemaakt (k).

(> 1)

CHECKPOINT_INTERVAL

Hiermee geeft u aan hoe vaak de in de cache opgeslagen knooppunt-id's moeten worden gecontroleerd.

(>= 1)

DOC_CONCENTRATION

De concentratieparameter ("alpha") bepaalt de vroegere veronderstellingen betreffende onderwerpdistributie over documenten. Het standaardgedrag wordt bepaald door de optimalisator. Voor EM optimizer, zouden de alpha- waarden groter moeten zijn dan 1.0 (gebrek: uniform verdeeld als (50/k) + 1), die symmetrische onderwerpverdelingen verzekeren. Voor online optimizer, kunnen alpha- waarden 0 of groter zijn (gebrek: uniform verdeeld als 1.0/k), die voor flexibelere onderwerpinitialisatie toestaan.

Automatisch

Eén waarde of vector met lengte k waarbij waarden > 1 voor EM

KEEP_LAST_CHECKPOINT

Geeft aan of het laatste controlepunt moet worden behouden wanneer de functie em optimizer wordt gebruikt. Het verwijderen van het controlepunt kan fouten veroorzaken als een gegevensverdeling verloren gaat. Controlepunten worden automatisch uit de opslag verwijderd wanneer ze niet meer nodig zijn, zoals bepaald door tellen van referenties.

true

true, false

LEARNING_DECAY

De leersnelheid voor de online optimizer, die als exponentiële dalingssnelheid tussen (0.5, 1.0] wordt geplaatst.

0,51

(0.5, 1.0]

LEARNING_OFFSET

Een leerparameter voor de online optimalisator die vroege herhalingen vermindert om vroege herhalingen minder te maken.

1024

(> 0)

SEED

Willekeurig zaad voor het controleren van willekeurige processen in het algoritme.

NIET INGESTELD

Willekeurig 64-bits getal

OPTIMIZE_DOC_CONCENTRATION

Voor online optimizer: of de parameter docConcentration (Dirichlet-parameter voor document-onderwerp-distributie) tijdens de training moet worden geoptimaliseerd.

false

true, false

SUBSAMPLING_RATE

Voor de online optimizer: de fractie van de corpus die wordt gesampled en gebruikt in elke iteratie van een mini-batch-verloop, in het bereik (0, 1] .

0,05

(0, 1]

TOPIC_CONCENTRATION

De concentratieparameter ("bèta" of "eta") definieert de voorafgaande aannames die bij de verdeling van onderwerpen over termen zijn gemaakt. De standaardwaarde wordt bepaald door de optimalisator: Voor EM worden waarden > 1,0 gebruikt (standaardwaarde = 0,1 + 1). Voor online, waarden ≥ 0 (standaardwaarde = 1,0/k).

Automatisch

Eén waarde of vector met lengte k, waarbij waarden > 1 voor EM

TOPIC_DISTRIBUTION_COL

Deze parameter geeft de geschatte distributie van de onderwerpmix voor elk document weer, vaak in de literatuur "theta" genoemd. Voor lege documenten wordt een vector met nullen geretourneerd. Schattingen worden afgeleid met behulp van een variatienadering ("gamma").

NIET INGESTELD

Willekeurige tekenreeks

Voorbeeld

Create MODEL modelname OPTIONS(
  type = 'lda',
) AS
  select col1, col2, col3 from training-dataset

Volgende stappen

Na het lezen van dit document, weet u nu hoe te om diverse het groeperen algoritmen te vormen en te gebruiken. Daarna, verwijs naar de documenten op classificatie en regressie om over andere soorten geavanceerde statistische modellen te leren.

recommendation-more-help

ccf2b369-4031-483f-af63-a93b5ae5e3fb