访客聚类

重要

阅读有关Data Workbench 生命周期终止公告.

通过访客聚类,您可以利用客户特性对访客进行动态分类,并基于选定的数据输入生成聚类集,从而识别具有相似兴趣和行为的群组,以便进行客户分析和定位。

聚类流程

聚类流程需要您识别可用作输入的量度和维度元素,并允许您选择一个特定目标人群,以应用这些元素创建指定的聚类。在运行聚类流程时,系统会使用量度和维度输入,为指定数量的聚类确定正确的初始中心。这些中心此后将作为应用 K-Means 算法的起点。

  • 通过 Canopy 聚类传递,可智能化地选择初始中心。
  • 通过将每个数据点关联到最近的中心,可创建数据聚类。
  • 每个 K 聚类的均值将成为新的中心。
  • 在步骤 2 和 3 中重复此算法,直到实现聚合为止。这可能需要多次传递。

Maximum IterationsOptions 菜单,分析人员可以指定聚类算法执行的最大迭代次数。 设置此选项,可能会以降低聚类中心聚合的准确度为代价,更快地完成基于最大迭代上限的聚类流程。

注意

定义群集后,可以保存群集Dimension,以便像任何其他维度一样使用。 也可以将它加载到聚类浏览器中,以检查聚类中心的分离情况。

在聚类生成器中,您可以选择 Options > Algorithm 来选择算法。 目前,有3种受支持的算法:

  • KMeans
  • 克迈恩斯++
  • 期望最大化

有两种方法可运行聚类过程:

  • 方法1 — 单击 Go 在“聚类可视化”窗口中。
  • 方法2 — 单击 Submit 在“聚类可视化”窗口中,该窗口将聚类作业直接发送到服务器。 您可以通过“查询的详细状态”选项跟踪进度。

算法具有以下限制:

  1. 如果您使用方法1,则可以选择任何受支持的聚类算法。
  2. 如果您使用方法2,则可以选择kmeans或kmeans++。 “期望最大化”选项将不可用。
注意

在 DPU.cfg 文件中,“查询,内存限制”的值默认设置为500 MB。 运行多个群集作业时必须增加此值。 例如,如果您同时运行5个群集作业,请将此值增加到1 GB。 如果不重新启动服务器,将无法取消群集作业。

Recommendations

迭代次数(数据被扫描的次数)和您配置的收敛阈值会严重影响群集性能。 下表提供了一个更广泛的准则,您可以遵循:

聚类数 算法 迭代 收敛阈值 标准化
6 克迈恩斯 2.55万 1e-3 最小 — 最大
6 克迈恩斯 2.55万 1e-6 最小 — 最大
6 克梅恩斯++ 50 1e-6 最小 — 最大

在此页面上