Ulteriori informazioni su Data Workbench Annuncio di fine vita.
Il clustering visitatore consente di sfruttare le caratteristiche del cliente per categorizzare dinamicamente i visitatori e generare set di cluster basati su input di dati selezionati, identificando così i gruppi che hanno interessi e comportamenti simili per l’analisi e il targeting dei clienti.
Processo di clustering
Il processo di clustering richiede l’identificazione di metriche ed elementi dimensionali da utilizzare come input e consente di scegliere una popolazione target specifica per applicare questi elementi per creare cluster specifici. Quando si esegue il processo di clustering, il sistema utilizza la metrica e gli input della dimensione per determinare i centri iniziali appropriati per il numero specificato di cluster. Questi centri vengono quindi utilizzati come punto di partenza per applicare l'algoritmo K-Means.
La Maximum Iterations in Options consente all’analista di specificare il numero massimo di iterazioni da eseguire dall’algoritmo di clustering. L'impostazione di questa opzione può comportare un completamento più rapido del processo di clustering basato sul limite massimo di iterazioni a scapito della convergenza esatta dei centri cluster.
Una volta definiti i cluster, il Dimension Cluster può essere salvato per l'utilizzo come qualsiasi altra dimensione. Può anche essere caricato in Esplora cluster per esaminare la separazione dei centri cluster.
In Cluster Builder, puoi selezionare Options > Algorithm per selezionare gli algoritmi durante la definizione dei cluster. Al momento sono disponibili 3 algoritmi supportati:
++
Esistono 2 modi per eseguire il processo di clustering:
L’algoritmo presenta le seguenti limitazioni:
In DPU.cfg file, il valore per 'Query, Memory Limit' è impostato su 500 MB per impostazione predefinita. Questo valore deve essere aumentato durante l'esecuzione di più processi di clustering. Ad esempio, se esegui 5 processi di clustering in parallelo, aumenta questo valore a 1 GB. Non è possibile annullare il processo di clustering senza riavviare il server.
Raccomandazioni
Il numero di iterazioni (il numero di volte in cui i dati vengono analizzati) e la soglia di convergenza che configuri incidono notevolmente sulle prestazioni del clustering. La tabella seguente fornisce una linea guida più ampia da seguire:
Numero di cluster | Algoritmo | Iterazioni | Soglia di convergenza | Normalizzazione |
---|---|---|---|---|
6 | Kays | 25,50 | 1e-3 | Min-Max |
6 | Kays | 25,50 | 1e-6 | Min-Max |
6 | KMedia+ | 50 | 1e-6 | Min-Max |