Desduplicação de dados a partir de um arquivo importado deduplicating-the-data-from-an-imported-file

Este exemplo mostra como desduplicar dados de um arquivo importado antes de carregá-los no banco de dados. Esse procedimento melhora a qualidade dos dados carregados no banco de dados.

Este fluxo de trabalho é composto por:

  • Um arquivo que contém uma lista de perfis é importado usando uma atividade Carregar arquivo. Neste exemplo, o arquivo importado está no formato .csv e contém 10 perfis:

    code language-none
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    

    Esse arquivo também pode ser usado como um arquivo de amostra para detectar e definir o formato das colunas. Na guia Column definition, verifique se cada coluna do arquivo importado está configurada corretamente.

  • Uma atividade Deduplication. A desduplicação é feita diretamente após a importação do arquivo e antes da inserção dos dados no banco de dados. Por conseguinte, ela deve se basear no Temporary resource da atividade de Load file.

    Neste exemplo, queremos manter uma única entrada por endereço de email exclusivo contido no arquivo. A identificação de duplicatas é, portanto, feita na coluna de email do recurso temporário. Com isso, dois endereços de email são exibidos duas vezes no arquivo. Assim sendo, duas linhas são consideradas duplicatas.

  • Uma atividade Atualizar dados permite inserir os dados mantidos do processo de desduplicação no banco de dados. Somente quando os dados são atualizados é que os dados importados são identificados como pertencendo à dimensão do perfil.

    Aqui, gostaríamos de Insert only os perfis que ainda não existem no banco de dados. Vamos fazer isso usando a coluna de email do arquivo e o campo de email da dimensão do Perfil como a chave de reconciliação.

    Especifique os mapeamentos entre as colunas do arquivo a partir das quais deseja inserir os dados e os campos do banco de dados da guia Fields to update.

Em seguida, inicie o fluxo de trabalho. Os registros salvos do processo de desduplicação são adicionados aos perfis no banco de dados.

recommendation-more-help
3ef63344-7f3d-48f9-85ed-02bf569c4fff