Clusterisation d’algorithmes clustering-algorithms
La mise en grappe d’algorithmes regroupe les points de données dans des grappes distinctes en fonction de leurs similitudes, ce qui permet à l’apprentissage non supervisé de découvrir des modèles au sein des données. Pour créer un algorithme de mise en grappe, utilisez le paramètre type dans la clause OPTIONS pour spécifier l’algorithme que vous souhaitez utiliser pour la formation de modèle. Définissez ensuite les paramètres pertinents en tant que paires clé-valeur pour affiner le modèle.
K-Means kmeans
K-Means est un algorithme de mise en grappe qui partitionne les points de données en un nombre prédéfini de grappes (k). Il s’agit de l’un des algorithmes les plus couramment utilisés pour la mise en grappe en raison de sa simplicité et de son efficacité.
Paramètres
Lors de l’utilisation de K-Means, les paramètres suivants peuvent être définis dans la clause OPTIONS :
MAX_ITER20TOL0.0001NUM_CLUSTERSk).2DISTANCE_TYPEeuclideaneuclidean, cosineKMEANS_INIT_METHODk-means||random, k-means|| (Une version parallèle de k-resources++)INIT_STEPSk-means|| (applicable uniquement lorsque KMEANS_INIT_METHOD est k-means||).2PREDICTION_COLpredictionSEED-1689246527WEIGHT_COLnot setExemple
CREATE MODEL modelname
OPTIONS(
type = 'kmeans',
MAX_ITERATIONS = 30,
NUM_CLUSTERS = 4
)
AS SELECT col1, col2, col3 FROM training-dataset;
Bisecting K-means bisecting-kmeans
Bisecting K-means est un algorithme de mise en grappe hiérarchique qui utilise une approche divisée (ou "de haut en bas"). Toutes les observations démarrent dans un seul cluster et les divisions sont récursivement effectuées lors de la création de la hiérarchie. Bisecting K-means peut souvent être plus rapide que les moyennes K ordinaires, mais il produit généralement des résultats de cluster différents.
Paramètres
MAX_ITERWEIGHT_COL1.0.NUM_CLUSTERSSEEDDISTANCE_MEASUREeuclidean, cosineMIN_DIVISIBLE_CLUSTER_SIZEPREDICTION_COLExemple
Create MODEL modelname OPTIONS(
type = 'bisecting_kmeans',
) AS
select col1, col2, col3 from training-dataset
Gaussian Mixture Model gaussian-mixture-model
Gaussian Mixture Model représente une distribution composite où les points de données sont tirés d’une des sous-distributions gaussiennes k, chacune avec sa propre probabilité. Il est utilisé pour modéliser des jeux de données supposés être générés à partir d’un mélange de plusieurs distributions gaussiennes.
Paramètres
MAX_ITERWEIGHT_COL1.0.NUM_CLUSTERSSEEDAGGREGATION_DEPTHPROBABILITY_COLTOLPREDICTION_COLExemple
Create MODEL modelname OPTIONS(
type = 'gaussian_mixture',
) AS
select col1, col2, col3 from training-dataset
Latent Dirichlet Allocation (LDA) latent-dirichlet-allocation
Latent Dirichlet Allocation (LDA) est un modèle probabiliste qui capture la structure de rubrique sous-jacente à partir d’une collection de documents. Il s’agit d’un modèle bayésien hiérarchique à trois niveaux avec des couches de mots, de sujets et de documents. LDA utilise ces couches, ainsi que les documents observés, pour créer une structure de rubrique latente.
Paramètres
MAX_ITEROPTIMIZER"online" (Online Variational Bayes) et "em" (Expectation-Maximization).online, em (non-respect de la casse)NUM_CLUSTERSCHECKPOINT_INTERVALDOC_CONCENTRATIONEM, les valeurs alpha doivent être supérieures à 1.0 (valeur par défaut : uniformément distribuées sous la forme (50/k) + 1), ce qui garantit des distributions de rubrique symétriques. Pour l’optimiseur online, les valeurs alpha peuvent être 0 ou supérieures (par défaut : uniformément distribuées sous la forme 1.0/k), ce qui permet une initialisation de rubrique plus flexible.KEEP_LAST_CHECKPOINTem. La suppression du point de contrôle peut entraîner des échecs en cas de perte d’une partition de données. Les points de contrôle sont automatiquement supprimés du stockage lorsqu’ils ne sont plus nécessaires, comme déterminé par le comptage des références.truetrue, falseLEARNING_DECAYonline, défini comme un taux de désintégration exponentiel entre (0.5, 1.0].(0.5, 1.0]LEARNING_OFFSETonline qui minimise les itérations précoces pour que les itérations précoces soient moins comptabilisées.SEEDOPTIMIZE_DOC_CONCENTRATIONonline : choisissez d’optimiser le docConcentration (paramètre Dirichlet pour la distribution de rubrique de document) pendant la formation.falsetrue, falseSUBSAMPLING_RATEonline : fraction du corpus échantillonnée et utilisée à chaque itération de descente en dégradé mini-lot, dans la plage (0, 1].(0, 1]TOPIC_CONCENTRATIONEM, valeurs > 1.0 (valeur par défaut = 0,1 + 1). Pour online, les valeurs ≥ 0 (par défaut = 1,0/k).TOPIC_DISTRIBUTION_COLExemple
Create MODEL modelname OPTIONS(
type = 'lda',
) AS
select col1, col2, col3 from training-dataset
Étapes suivantes
Après avoir lu ce document, vous savez maintenant configurer et utiliser divers algorithmes de mise en grappe. Reportez-vous ensuite aux documents sur classification et régression pour en savoir plus sur d’autres types de modèles statistiques avancés.