Clustering 2.0

上次更新: 2022-10-05
  • 建立對象:
  • User
    Admin
重要

深入了解Data Workbench 終止公告.

叢集產生器現在包含KMeans++演算法(先前僅支援KMeans演算法),可使用更快的方法來尋找加速叢集產生程式的中心。

KMeans演算法

叢集產生器,您現在可以選取 Options > Algorithm 定義群集時選擇算法。

  • KMeans。該算法利用樹冠聚類來定義樹冠簇的中心。
  • KMeans++。當對大資料集運行時,此算法可加快群集構建。

KMeans是KMeans聚類算法的改進實現,因為它提供了更好的初始k中心初始化。 (原始KMean算法隨機選擇初始中心。) KMeans隨機選擇第一個中心。 剩餘的k-1中心將根據資料點到最接近現有中心的距離逐個選擇。 最遠的資料點被選擇為新中心的機會比附近的資料點更好。 選擇初始中心後,該過程與原始KMeans聚類完全相同。

KMeans的工作流與KMeans群集的工作流完全相同,但需要選擇的工作流除外 選項 > 演算法 > **KMeans** 在叢集產生器中。

注意

每個DPU都會在其自己的資料部分上運行自己的KMeans++過程。 如果DPU有足夠的可用記憶體(該比率可在PAServer.cfg檔案中配置),則這些相關變數的資料將被帶入記憶體。 剩餘的k-1初始中心選擇和收斂迭代都發生在記憶體中,這比以前的KMeans群集快。

此頁面上的