此示例展示了如何在将数据加载到数据库之前,删除导入文件中的数据重复项。此过程可提高数据库加载数据的质量。
该工作流由以下步骤组成:
使用 加载文件 活动。 在本例中,导入的文件为 .csv 格式,且包含 10 个用户档案:
lastname;firstname;dateofbirth;email
Smith;Hayden;23/05/1989;hayden.smith@example.com
Mars;Daniel;17/11/1987;dannymars@example.com
Smith;Clara;08/02/1989;hayden.smith@example.com
Durance;Allison;15/12/1978;allison.durance@example.com
Lucassen;Jody;28/03/1988;jody.lucassen@example.com
Binder;Tom;19/01/1982;tombinder@example.com
Binder;Tommy;19/01/1915;tombinder@example.com
Connor;Jade;10/10/1979;connor.jade@example.com
Mack;Clarke;02/03/1985;clarke.mack@example.com
Ross;Timothy;04/07/1986;timross@example.com
此文件还可用作检测和定义列格式的样例文件。在 Column definition 选项卡中,确保已正确配置导入文件的每个列。
A 重复数据删除 活动。 在导入文件后及将数据插入数据库之前,直接执行重复数据删除。这样,即可使用来自 Load file 的 Temporary resource 数据,以其为基础执行重复数据删除。
在本例中,我们希望对文件中包含的每个唯一电子邮件地址保留一个条目。因此,应对临时资源的 email 列执行重复项识别。现在,两个相同的电子邮件地址会在文件中显示两次。此时,这两行将被视为重复项。
安 更新数据 利用活动,可将重复数据删除流程中保留的数据插入数据库。 只有在更新数据时,导入的数据才会被标识为属于用户档案维度。
在此,我们希望 Insert only 数据库中不存在的数据。我们将使用文件的电子邮件列和用户档案维度中的 email 字段作为协调键值,以执行此操作。
从 Fields to update 选项卡中指定要插入数据的文件列与数据库字段之间的映射。
然后,启动工作流。接下来,在重复数据删除流程保存的记录,将被添加到数据库中的用户档案。