从导入的文件中删除数据重复项 deduplicating-the-data-from-an-imported-file

此示例展示了如何在将数据加载到数据库之前,删除导入文件中的数据重复项。此过程可提高数据库加载数据的质量。

该工作流由以下步骤组成:

  • 使用加载文件活动导入了包含用户档案列表的文件。 在本例中,导入的文件为 .csv 格式,且包含 10 个用户档案:

    code language-none
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    

    此文件还可用作检测和定义列格式的样例文件。在 Column definition 选项卡中,确保已正确配置导入文件的每个列。

  • 重复数据删除活动。 在导入文件后及将数据插入数据库之前,直接执行重复数据删除。这样,即可使用来自 Load fileTemporary resource 数据,以其为基础执行重复数据删除。

    在本例中,我们希望对文件中包含的每个唯一电子邮件地址保留一个条目。因此,应对临时资源的 email 列执行重复项识别。现在,两个相同的电子邮件地址会在文件中显示两次。此时,这两行将被视为重复项。

  • 通过更新数据活动,可将重复数据删除流程中保留的数据插入数据库。 只有在更新数据时,导入的数据才会被标识为属于用户档案维度。

    在此,我们希望 Insert only 数据库中不存在的数据。我们将使用文件的电子邮件列和​ 用户档案 ​维度中的 email 字段作为协调键,以执行此操作。

    Fields to update 选项卡中指定要插入数据的文件列与数据库字段之间的映射。

然后,启动工作流。接下来,在重复数据删除流程保存的记录,将被添加到数据库中的用户档案。

recommendation-more-help
3ef63344-7f3d-48f9-85ed-02bf569c4fff