Deduplicación de datos de un archivo importado

Este ejemplo muestra cómo deduplicar datos de un archivo importado antes de cargar los datos en la base de datos. Este procedimiento mejora la calidad de los datos cargados en la base de datos.

El flujo de trabajo consta de:

  • A file that contains a list of profiles is imported using a Load file activity. En este ejemplo, el archivo importado está en formato .csv y contiene 10 perfiles:

    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    

    Este archivo también puede utilizarse como archivo de muestra para detectar y definir el formato de las columnas. Desde la pestaña Column definition, asegúrese de que cada columna del archivo importado esté configurada correctamente.

  • Una actividad Deduplicación . La deduplicación se realiza directamente después de importar el archivo y antes de insertar los datos en la base de datos. Por lo tanto, debe basarse en el Temporary resource de la actividad de Load file.

    Para este ejemplo, queremos mantener una sola entrada por dirección de correo electrónico única contenida en el archivo. Por lo tanto, la identificación del duplicado se lleva a cabo en la columna de correo electrónico del recurso temporal. Sin embargo, aparecen dos veces en el archivo dos direcciones de correo electrónico. Por consiguiente, las dos líneas se considerarán duplicados.

  • An Update data activity allows you to insert the data kept from the deduplication process into the database. Solo cuando se actualizan los datos, se identifican los datos importados como pertenecientes a la dimensión de perfil.

    En este caso, nos gustaría Insert only los perfiles que no existen en la base de datos. Vamos a hacerlo utilizando la columna de correo electrónico del archivo y el campo de correo electrónico de la dimensión de Perfil como clave de reconciliación.

    Especifique las asignaciones entre las columnas del archivo desde las que desea insertar los datos y los campos de la base de datos desde la pestaña Fields to update.

A continuación, inicie el flujo de trabajo. Los registros guardados desde el proceso de deduplicación se añaden entonces a los perfiles de la base de datos.

En esta página