此用例描述了如何使用 Merge 中的功能 Deduplication 活动。
有关此功能的详细信息,请参阅 本节.
此 Deduplication activity用于从数据集中删除重复行。 在此使用案例中,根据Email字段重复了以下显示的数据。
上次修改日期 | 名字 | 姓氏 | 电子邮件 | 手机 | 电话 |
---|---|---|---|---|---|
5/19/2020 | 罗伯特 | 提斯纳 | bob@mycompany.com | 444-444-444 | 777-777-7777 |
7/22/2020 | 鲍比 | 提斯纳 | bob@mycompany.com | 777-777-7777 | |
10/03/2020 | 鲍勃 | bob@mycompany.com | 888-888-8888 |
利用重复数据删除活动的 Merge 通过功能,您可以为重复数据删除配置一组规则,以定义要合并到单个结果数据记录中的一组字段。 例如,如果有一组重复记录,则可以选择保留最早的电话号码或最近的名称。
要启用合并功能,您首先需要配置 Deduplication 活动。 为此,请执行以下步骤:
打开活动,然后单击 [编辑配置] 链接。
选择要用于重复数据删除的协调字段,然后单击 Next. 在本例中,我们要根据电子邮件字段删除重复项。
单击 Advanced parameters 链接,然后激活 Merge records 和 Use several record merging criteria 选项。
此 Merge 选项卡将添加到 Deduplication 配置屏幕。 我们将使用此选项卡指定在执行重复数据删除时要合并的数据。
以下是我们要用于将数据合并到单个记录的规则:
要配置这些规则,请执行以下步骤:
打开 Merge 选项卡,然后单击 Add 按钮。
指定要合并的字段组的标识符和标签。
指明选择要考虑的记录的条件。
对上次修改日期进行排序,以便选择最近名称。
选择要合并的字段。 在本例中,我们希望保留名字和姓氏字段。
这些字段将添加到要合并的数据集,并且新元素将添加到工作流架构。
重复这些步骤以配置手机和电话字段。
配置这些规则后,将在 Deduplication 活动。
修改日期 | 名字 | 姓氏 | 电子邮件 | 手机 | 电话 |
---|---|---|---|---|---|
5/19/2020 | 罗伯特 | 提斯纳 | bob@mycompany.com | 444-444-444 | 777-777-7777 |
7/22/2020 | 鲍比 | 提斯纳 | bob@mycompany.com | 777-777-7777 | |
10/03/2020 | 鲍勃 | bob@mycompany.com | 888-888-8888 |
根据之前配置的规则,从这三条记录中合并结果。 经过比较,得出使用最新姓名、手机以及原始电话号码的结论。
名字 | 姓氏 | 电子邮件 | 手机 | 电话 |
---|---|---|---|---|
鲍比 | 提斯纳 | bob@mycompany.com | 444-444-4444 | 888-888-8888 |
请注意,已合并的名字是“Bobby”,因为我们已经配置了由名字和姓氏字段组成的“Name”规则。
因此,无法考虑“Bob”(最近的名字),因为其关联的姓氏字段为空。 最新的名字和姓氏组合被合并到最终记录中。