通过访客聚类,您可以利用客户特性对访客进行动态分类,并基于选定的数据输入生成聚类集,从而识别具有相似兴趣和行为的群组,以便进行客户分析和定位。
聚类流程
聚类流程需要您识别可用作输入的量度和维度元素,并允许您选择一个特定目标人群,以应用这些元素创建指定的聚类。在运行聚类流程时,系统会使用量度和维度输入,为指定数量的聚类确定正确的初始中心。这些中心此后将作为应用 K-Means 算法的起点。
Options菜单中的Maximum Iterations允许分析人员指定由聚类算法执行的最大迭代次数。 设置此选项,可能会以降低聚类中心聚合的准确度为代价,更快地完成基于最大迭代上限的聚类流程。
定义群集后,可以保存群集Dimension,以便像任何其他维一样使用。 也可以将它加载到聚类浏览器中,以检查聚类中心的分离情况。
在Cluster Builder中,可以选择Options > Algorithm以在定义群集时选择算法。 目前,有3种支持的算法:
++
有两种方法可运行群集过程:
算法具有以下限制:
在DPU.cfg文件中,默认情况下,“查询,内存限制”的值设置为500 MB。 运行多个群集作业时必须增加此值。 例如,如果您并行运行5个群集作业,请将此值增加到1 GB。 如果不重新启动服务器,就无法取消群集作业。
推荐
迭代次数(扫描数据的次数)和您配置的收敛阈值会严重影响群集性能。 下表提供了更广泛的指导原则,您可以遵循:
群集数 | 算法 | 迭代 | 收敛阈值 | 标准化 |
---|---|---|---|---|
6 | Kmeans | 2.55万 | 1e-3 | 最小 — 最大 |
6 | Kmeans | 2.55万 | 1e-6 | 最小 — 最大 |
6 | Kmeans++ | 50 | 1e-6 | 最小 — 最大 |