Algoritmos de clúster clustering-algorithms
Los algoritmos de agrupación agrupan los puntos de datos en distintos clústeres en función de sus similitudes, lo que permite al aprendizaje no supervisado descubrir patrones dentro de los datos. Para crear un algoritmo de clúster, use el parámetro type
en la cláusula OPTIONS
para especificar el algoritmo que desea usar para la formación de modelos. A continuación, defina los parámetros relevantes como pares clave-valor para ajustar el modelo.
K-Means kmeans
K-Means
es un algoritmo de agrupación en clúster que divide los puntos de datos en un número predefinido de clústeres (k). Es uno de los algoritmos más utilizados para la agrupación en clúster debido a su simplicidad y eficiencia.
Parámetros
Al utilizar K-Means
, se pueden establecer los siguientes parámetros en la cláusula OPTIONS
:
MAX_ITER
20
TOL
0.0001
NUM_CLUSTERS
k
).2
DISTANCE_TYPE
euclidean
euclidean
, cosine
KMEANS_INIT_METHOD
k-means||
random
, k-means||
(Una versión paralela de k-medias++)INIT_STEPS
k-means||
(aplicable solo cuando KMEANS_INIT_METHOD
es k-means||
).2
PREDICTION_COL
prediction
SEED
-1689246527
WEIGHT_COL
not set
Ejemplo
CREATE MODEL modelname
OPTIONS(
type = 'kmeans',
MAX_ITERATIONS = 30,
NUM_CLUSTERS = 4
)
AS SELECT col1, col2, col3 FROM training-dataset;
Bisecting K-means bisecting-kmeans
Bisecting K-means es un algoritmo de agrupación en clúster jerárquico que usa un enfoque divisivo (o "descendente"). Todas las observaciones comienzan en un único grupo y las divisiones se realizan de forma recursiva a medida que se crea la jerarquía. Bisecting K-means puede ser a menudo más rápido que las K-medias normales, pero normalmente produce resultados de clúster diferentes.
Parámetros
MAX_ITER
WEIGHT_COL
1.0
.NUM_CLUSTERS
SEED
DISTANCE_MEASURE
euclidean
, cosine
MIN_DIVISIBLE_CLUSTER_SIZE
PREDICTION_COL
Ejemplo
Create MODEL modelname OPTIONS(
type = 'bisecting_kmeans',
) AS
select col1, col2, col3 from training-dataset
Gaussian Mixture Model gaussian-mixture-model
Gaussian Mixture Model representa una distribución compuesta en la que los puntos de datos se extraen de una de las subdistribuciones k de Gauss, cada una con su propia probabilidad. Se utiliza para modelar conjuntos de datos que se supone que se generan a partir de una mezcla de varias distribuciones gaussianas.
Parámetros
MAX_ITER
WEIGHT_COL
1.0
.NUM_CLUSTERS
SEED
AGGREGATION_DEPTH
PROBABILITY_COL
TOL
PREDICTION_COL
Ejemplo
Create MODEL modelname OPTIONS(
type = 'gaussian_mixture',
) AS
select col1, col2, col3 from training-dataset
Latent Dirichlet Allocation (LDA) latent-dirichlet-allocation
Latent Dirichlet Allocation (LDA) es un modelo probabilístico que captura la estructura del tema subyacente de una colección de documentos. Es un modelo bayesiano jerárquico de tres niveles con capas de palabras, temas y documentos. LDA utiliza estas capas, junto con los documentos observados, para crear una estructura de temas latente.
Parámetros
MAX_ITER
OPTIMIZER
"online"
(Variaciones de bayas en línea) y "em"
(Expectación-Maximización).online
, em
(sin distinción de mayúsculas y minúsculas)NUM_CLUSTERS
CHECKPOINT_INTERVAL
DOC_CONCENTRATION
EM
, los valores alfa deben ser mayores que 1,0 (predeterminado: distribuido uniformemente como (50/k) + 1), lo que garantiza distribuciones de temas simétricas. Para el optimizador online
, los valores alfa pueden ser 0 o mayores (predeterminado: distribuido uniformemente como 1,0/k), lo que permite una inicialización de tema más flexible.KEEP_LAST_CHECKPOINT
em
. La eliminación del punto de comprobación puede provocar errores si se pierde una partición de datos. Los puntos de comprobación se eliminan automáticamente del almacenamiento cuando ya no son necesarios, según lo determinado por el recuento de referencias.true
true
, false
LEARNING_DECAY
online
, establecida como una tasa de disminución exponencial entre (0.5, 1.0]
.(0.5, 1.0]
LEARNING_OFFSET
online
que reduce el valor de las iteraciones tempranas para que las iteraciones tempranas cuenten menos.SEED
OPTIMIZE_DOC_CONCENTRATION
online
: si se debe optimizar docConcentration
(parámetro Dirichlet para la distribución de temas de documentos) durante la formación.false
true
, false
SUBSAMPLING_RATE
online
: la fracción del corpus muestreada y utilizada en cada iteración de descenso de degradado de minilotes, en el rango (0, 1]
.(0, 1]
TOPIC_CONCENTRATION
EM
, valores > 1,0 (predeterminado = 0,1 + 1). Para online
, los valores ≥ 0 (predeterminado = 1,0/k).TOPIC_DISTRIBUTION_COL
Ejemplo
Create MODEL modelname OPTIONS(
type = 'lda',
) AS
select col1, col2, col3 from training-dataset
Pasos siguientes
Después de leer este documento, ahora sabe cómo configurar y utilizar varios algoritmos de agrupación en clúster. A continuación, consulte los documentos sobre clasificación y regresión para obtener más información sobre otros tipos de modelos estadísticos avanzados.