使用外部重复数据删除活动的合并功能 deduplication-merge
关于此用例 about-this-use-case
此用例描述了如何在 Deduplication 活动中使用 Merge 功能。
有关此功能的详细信息,请参阅此部分。
Deduplication 活动用于从数据集中删除重复行。 在此使用案例中,根据Email字段重复了以下显示的数据。
利用重复数据删除活动的 Merge 功能,您可以为重复数据删除配置一组规则,以定义要合并到单个结果数据记录中的一组字段。 例如,如果有一组重复记录,则可以选择保留最早的电话号码或最近的名称。
激活合并功能 activating-merge
要启用合并功能,您首先需要配置 Deduplication 活动。 为此,请执行以下步骤:
-
打开活动,然后单击 [编辑配置] 链接。
-
选择要用于重复数据删除的协调字段,然后单击 Next。 在本例中,我们要根据电子邮件字段删除重复项。
-
单击 Advanced parameters 链接,然后激活 Merge records 和 Use several record merging criteria 选项。
-
Merge 选项卡已添加到 Deduplication 配置屏幕中。 我们将使用此选项卡指定在执行重复数据删除时要合并的数据。
配置要合并的字段 configuring-rules
以下是我们要用于将数据合并到单个记录的规则:
- 保留最新名称(名字和姓氏字段),
- 保留最新的手机,
- 保留最旧的电话号码,
- 组中的所有字段都必须不为null才符合最终记录的条件。
要配置这些规则,请执行以下步骤:
-
打开 Merge 选项卡,然后单击 Add 按钮。
-
指定要合并的字段组的标识符和标签。
-
指明选择要考虑的记录的条件。
-
对上次修改日期进行排序,以便选择最近名称。
-
选择要合并的字段。 在本例中,我们希望保留名字和姓氏字段。
-
这些字段将添加到要合并的数据集,并且新元素将添加到工作流架构。
重复这些步骤以配置手机和电话字段。
结果 results
配置这些规则后,将在 Deduplication 活动结束时收到以下数据。
根据之前配置的规则,从这三条记录中合并结果。 经过比较,得出使用最新姓名、手机以及原始电话号码的结论。