訪客叢集

重要

深入了解Data Workbench 終止公告.

訪客叢集可讓您運用客戶特性,以動態方式分類訪客,並根據選取的資料輸入產生叢集,借此識別具有類似興趣和行為的群組,以便進行客戶分析和鎖定。

聚類過程

叢集程式會要求您識別要作為輸入的量度和維度元素,並可讓您選擇特定目標母體,以套用這些元素來建立指定的叢集。 當您運行群集過程時,系統會使用度量和維輸入來確定指定數量的群集的適當初始中心。 然後,這些中心被用作應用K-Means算法的起始點。

  • 通過林冠叢集通道智慧地選擇初始中心。
  • 將每個資料點與最接近的中心相關聯,即可建立資料叢集。
  • 每個K簇的平均值成為新中心。
  • 在步驟2和步驟3中重複該算法,直到達到收斂。 這可能需要多次。

Maximum IterationsOptions 菜單允許分析人員指定要由群集算法執行的最大迭代次數。 設定此選項可能會導致基於最大迭代次數上限的群集過程更快完成,而犧牲群集中心的精確收斂。

注意

定義叢集後,即可儲存叢集Dimension以像任何其他維度一樣使用。 它也可以載入到群集資源管理器中,以檢查群集中心的分離。

在「叢集產生器」中,您可以選取 Options > Algorithm 定義群集時選擇算法。 目前有3種支援的演算法:

  • KMeans
  • Kmeans++
  • 期望最大化

有2種方法可運行群集過程:

  • 方法1 — 按一下 Go (在「群集視覺效果」窗口中)。
  • 方法2 — 按一下 Submit 在「集群可視化」窗口中,將集群作業直接發送到伺服器。 您可以透過「查詢的詳細狀態」選項追蹤進度。

演算法有下列限制:

  1. 如果您使用方法1,則可以選取任何支援的叢集演算法。
  2. 如果使用方法2,則可選擇kmeans或kmeans++。 期望最大化選項將不可用。
注意

在 DPU.cfg 檔案中,「查詢,記憶體限制」的值預設為500 MB。 運行多個群集作業時,必須增加此值。 例如,如果您同時執行5個叢集作業,請將此值增加為1 GB。 在不重新啟動伺服器的情況下,無法取消群集作業。

Recommendations

迭代次數(掃描資料的次數)和配置的收斂閾值會嚴重影響群集效能。 下表提供您可遵循的更廣泛指引:

群集數 演算法 迭代 收斂閾值 標準化
6 Kmeans 2.55萬 1e-3 最小值 — 最大值
6 Kmeans 2.55萬 1e-6 最小值 — 最大值
6 克梅恩++ 50 1e-6 最小值 — 最大值

本頁內容