从导入的文件中删除数据重复项

此示例展示了如何在将数据加载到数据库之前,删除导入文件中的数据重复项。此过程可提高数据库加载数据的质量。

该工作流由以下步骤组成:

  • 使用加载文件列表导入包含用户档案的文件。 在本例中,导入的文件为 .csv 格式,且包含 10 个用户档案:

    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    

    此文件还可用作检测和定义列格式的样例文件。在 Column definition 选项卡中,确保已正确配置导入文件的每个列。

  • 外部重复数据删除活动。 在导入文件后及将数据插入数据库之前,直接执行重复数据删除。这样,即可使用来自 Load fileTemporary resource 数据,以其为基础执行重复数据删除。

    在本例中,我们希望对文件中包含的每个唯一电子邮件地址保留一个条目。因此,应对临时资源的 email 列执行重复项识别。现在,两个相同的电子邮件地址会在文件中显示两次。此时,这两行将被视为重复项。

  • 更新数据活动允许您将外部重复数据删除过程中保留的数据插入数据库。 只有在更新数据时,导入的数据才会被标识为属于用户档案维度。

    在此,我们希望 Insert only 数据库中不存在的数据。我们将使用文件的电子邮件列和​用户档案​维度中的 email 字段作为协调键值,以执行此操作。

    Fields to update 选项卡中指定要插入数据的文件列与数据库字段之间的映射。

然后,启动工作流。接下来,在重复数据删除流程保存的记录,将被添加到数据库中的用户档案。

On this page

Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now