深入了解Data Workbench 終止公告.
訪客叢集可讓您運用客戶特性,以動態方式分類訪客,並根據選取的資料輸入產生叢集,借此識別具有類似興趣和行為的群組,以便進行客戶分析和鎖定。
聚類過程
叢集程式會要求您識別要作為輸入的量度和維度元素,並可讓您選擇特定目標母體,以套用這些元素來建立指定的叢集。 當您運行群集過程時,系統會使用度量和維輸入來確定指定數量的群集的適當初始中心。 然後,這些中心被用作應用K-Means算法的起始點。
此 Maximum Iterations 在 Options 菜單允許分析人員指定要由群集算法執行的最大迭代次數。 設定此選項可能會導致基於最大迭代次數上限的群集過程更快完成,而犧牲群集中心的精確收斂。
定義叢集後,即可儲存叢集Dimension以像任何其他維度一樣使用。 它也可以載入到群集資源管理器中,以檢查群集中心的分離。
在「叢集產生器」中,您可以選取 Options > Algorithm 定義群集時選擇算法。 目前有3種支援的演算法:
++
有2種方法可運行群集過程:
演算法有下列限制:
在 DPU.cfg 檔案中,「查詢,記憶體限制」的值預設為500 MB。 運行多個群集作業時,必須增加此值。 例如,如果您同時執行5個叢集作業,請將此值增加為1 GB。 在不重新啟動伺服器的情況下,無法取消群集作業。
Recommendations
迭代次數(掃描資料的次數)和配置的收斂閾值會嚴重影響群集效能。 下表提供您可遵循的更廣泛指引:
群集數 | 演算法 | 迭代 | 收斂閾值 | 標準化 |
---|---|---|---|---|
6 | Kmeans | 2.55萬 | 1e-3 | 最小值 — 最大值 |
6 | Kmeans | 2.55萬 | 1e-6 | 最小值 — 最大值 |
6 | 克梅恩++ | 50 | 1e-6 | 最小值 — 最大值 |