使用重复数据删除活动的合并功能 deduplication-merge
关于此用例 about-this-use-case
此用例描述了如何使用 Merge 中的功能 Deduplication 活动。
有关此功能的更多信息,请参阅 本节.
此 Deduplication activity用于从数据集中删除重复行。 在此使用案例中,根据“电子邮件”字段复制了以下显示的数据。
利用重复数据删除活动的 Merge 通过功能,您可以为重复数据删除配置一组规则,以定义要合并到单个结果数据记录中的一组字段。 例如,如果有一组重复记录,您可以选择保留最早的电话号码或最近的名称。
激活合并功能 activating-merge
要启用合并功能,您首先需要配置 Deduplication 活动。 为此,请执行以下步骤:
-
打开活动,然后单击 [编辑配置] 链接。
-
选择要用于重复数据删除的协调字段,然后单击 Next. 在本例中,我们要根据电子邮件字段进行重复数据删除。
-
单击 Advanced parameters 链接,然后激活 Merge records 和 Use several record merging criteria 选项。
-
此 Merge 选项卡将添加到 Deduplication 配置屏幕。 我们将使用此选项卡指定在执行重复数据删除时要合并的数据。
配置要合并的字段 configuring-rules
以下是我们要用于将数据合并到单个记录的规则:
- 保留最新名称(名字和姓氏字段),
- 保留最新的手机,
- 保留最旧的电话号码,
- 组中的所有字段都必须不为null才符合最终记录的条件。
要配置这些规则,请执行以下步骤:
-
打开 Merge 选项卡,然后单击 Add 按钮。
-
指定要合并的字段组的标识符和标签。
-
指示选择要考虑的记录的条件。
-
对上次修改日期进行排序,以便选择最近名称。
-
选择要合并的字段。 在本例中,我们希望保留名字和姓氏字段。
-
这些字段将添加到要合并的数据集,并且工作流架构中添加了一个新元素。
重复这些步骤以配置手机和电话字段。
结果 results
配置这些规则后,将在 Deduplication 活动。
根据之前配置的规则,从三个记录中合并结果。 经过比较,得出使用最新姓名和手机以及原始电话号码的结论。