Leia mais sobre Datas Workbench Anúncio do fim da vida útil.
O clustering do visitante permite aproveitar as características do cliente para categorizar dinamicamente os visitantes e gerar conjuntos de clusters com base em entradas de dados selecionadas, identificando grupos que têm interesses e comportamentos semelhantes para análise e direcionamento do cliente.
Processo de cluster
O processo de clustering requer que você identifique métricas e elementos de dimensão a serem usados como entradas e permite que você escolha uma população de target específica para aplicar esses elementos para criar clusters especificados. Quando você executa o processo de cluster, o sistema usa a métrica e as entradas de dimensão para determinar os centros iniciais apropriados para o número especificado de clusters. Esses centros são então usados como ponto de partida para aplicar o algoritmo K-Means.
O Maximum Iterations no Options permite que o analista especifique o número máximo de iterações a serem executadas pelo algoritmo de cluster. Definir essa opção pode resultar em uma conclusão mais rápida do processo de cluster com base no limite máximo de iterações em detrimento da convergência exata dos centros de cluster.
Depois que os clusters forem definidos, o Dimension Cluster poderá ser salvo para uso como qualquer outra dimensão. Ele também pode ser carregado no Cluster Explorer para examinar a separação de centros de cluster.
No Construtor de Cluster, você pode selecionar Options > Algorithm para selecionar algoritmos ao definir clusters. Atualmente, há 3 algoritmos compatíveis:
++
Há duas maneiras de executar o processo de cluster:
O algoritmo tem as seguintes restrições:
No DPU.cfg , o valor de 'Query, Memory Limit' é definido como 500 MB por padrão. Esse valor deve ser aumentado ao executar vários trabalhos de cluster. Por exemplo, se você estiver executando 5 trabalhos de cluster em paralelo, aumente esse valor para 1 GB. Não há como cancelar o trabalho de cluster sem reiniciar o Servidor.
Recomendações
O número de iterações (número de vezes que os dados são digitalizados) e o limite de convergência que você configura afetam grosseiramente o desempenho do cluster. A tabela a seguir fornece uma diretriz mais ampla que você pode seguir:
Número de clusters | Algoritmo | Iterações | Limite de Convergência | Normalização |
---|---|---|---|---|
6 | KMeia | 25,50 | 1e-3 | Mín-Máx |
6 | KMeia | 25,50 | 1e-6 | Mín-Máx |
6 | KMeia++ | 50 | 1e-6 | Mín-Máx |