Geração de cluster 2.0

IMPORTANTE

Leia mais sobre Datas Workbench Anúncio do fim da vida útil.

O Construtor de Cluster agora inclui um algoritmo KMeans++ (somente o algoritmo KMeans era compatível anteriormente) que usa uma abordagem mais rápida para encontrar centros para um processo acelerado de geração de cluster.

Algoritmos do KMeans

No Cluster Builder, agora você pode selecionar Options > Algorithm para selecionar algoritmos ao definir clusters.

  • KMeans. Esse algoritmo usa o clustering de cópia para definir os centros do cluster.
  • KMeans++. Esse algoritmo acelera a criação de cluster ao executar em grandes conjuntos de dados.

O KMeans+ é uma implementação aprimorada do algoritmo de cluster KMeans, pois fornece uma melhor inicialização dos centros k iniciais. (O algoritmo KMeans original escolhe centros iniciais aleatoriamente.) KMeans++ seleciona o primeiro centro aleatoriamente. Os centros k-1 restantes serão escolhidos um por um com base na distância que um ponto de dados representa para o centro existente mais próximo. Os pontos de dados mais distantes têm mais chances de ser escolhidos como um novo centro do que os pontos de dados mais próximos. Depois que o centro inicial é escolhido, o procedimento é executado exatamente como o clustering original do KMeans.

O fluxo de trabalho para KMeans+ é exatamente o mesmo fluxo de trabalho para clustering KMeans, exceto que é necessário selecionar Opções > Algoritmo > KMeans++ no construtor de cluster.

OBSERVAÇÃO

Cada DPU executa seu próprio procedimento KMeans++ em sua própria porção de dados. Se a DPU tiver memória disponível suficiente (a proporção é configurável no arquivo PAServer.cfg), os dados dessas variáveis envolvidas serão trazidos para a memória. A seleção central inicial k-1 e as iterações convergentes restantes acontecem na memória, o que é mais rápido que o cluster KMeans anterior.

Nesta página