从导入的文件中删除数据重复项 deduplicating-the-data-from-an-imported-file
此示例展示了如何在将数据加载到数据库之前,删除导入文件中的数据重复项。此过程可提高数据库加载数据的质量。
该工作流由以下步骤组成:
-
使用加载文件活动导入了包含用户档案列表的文件。 在本例中,导入的文件为 .csv 格式,且包含 10 个用户档案:
code language-none lastname;firstname;dateofbirth;email Smith;Hayden;23/05/1989;hayden.smith@example.com Mars;Daniel;17/11/1987;dannymars@example.com Smith;Clara;08/02/1989;hayden.smith@example.com Durance;Allison;15/12/1978;allison.durance@example.com Lucassen;Jody;28/03/1988;jody.lucassen@example.com Binder;Tom;19/01/1982;tombinder@example.com Binder;Tommy;19/01/1915;tombinder@example.com Connor;Jade;10/10/1979;connor.jade@example.com Mack;Clarke;02/03/1985;clarke.mack@example.com Ross;Timothy;04/07/1986;timross@example.com
此文件还可用作检测和定义列格式的样例文件。在 Column definition 选项卡中,确保已正确配置导入文件的每个列。
-
重复数据删除活动。 在导入文件后及将数据插入数据库之前,直接执行重复数据删除。这样,即可使用来自 Load file 的 Temporary resource 数据,以其为基础执行重复数据删除。
在本例中,我们希望对文件中包含的每个唯一电子邮件地址保留一个条目。因此,应对临时资源的 email 列执行重复项识别。现在,两个相同的电子邮件地址会在文件中显示两次。此时,这两行将被视为重复项。
-
通过更新数据活动,可将重复数据删除流程中保留的数据插入数据库。 只有在更新数据时,导入的数据才会被标识为属于用户档案维度。
在此,我们希望 Insert only 数据库中不存在的数据。我们将使用文件的电子邮件列和 用户档案 维度中的 email 字段作为协调键,以执行此操作。
从 Fields to update 选项卡中指定要插入数据的文件列与数据库字段之间的映射。
然后,启动工作流。接下来,在重复数据删除流程保存的记录,将被添加到数据库中的用户档案。