De gegevens uit een geïmporteerd bestand dedupliceren deduplicating-the-data-from-an-imported-file

In dit voorbeeld wordt getoond hoe u data uit een geïmporteerd bestand kunt dedupliceren voordat u de data in de database laadt. Deze procedure verbetert de kwaliteit van de data die in de database worden geladen.

De workflow bestaat uit:

 • Een bestand dat een lijst met profielen bevat, wordt geïmporteerd met een Bestand laden activiteit. In dit voorbeeld heeft het geïmporteerde bestand de csv-indeling en bevat het 10 profielen:

  code language-none
  lastname;firstname;dateofbirth;email
  Smith;Hayden;23/05/1989;hayden.smith@example.com
  Mars;Daniel;17/11/1987;dannymars@example.com
  Smith;Clara;08/02/1989;hayden.smith@example.com
  Durance;Allison;15/12/1978;allison.durance@example.com
  Lucassen;Jody;28/03/1988;jody.lucassen@example.com
  Binder;Tom;19/01/1982;tombinder@example.com
  Binder;Tommy;19/01/1915;tombinder@example.com
  Connor;Jade;10/10/1979;connor.jade@example.com
  Mack;Clarke;02/03/1985;clarke.mack@example.com
  Ross;Timothy;04/07/1986;timross@example.com
  

  Dit bestand kan ook worden gebruikt als voorbeeldbestand om de indeling van de kolommen te detecteren en te definiëren. Controleer in het tabblad Column definition of elke kolom van het geïmporteerde bestand correct is geconfigureerd.

 • A Deduplicatie activiteit. De deduplicatie wordt uitgevoerd direct na het importeren van het bestand en vóór het invoegen van de data in de database. Daarom moet deze gebaseerd zijn op de Temporary resource van de activiteit Load file.

  In dit voorbeeld willen we één vermelding per uniek e-mailadres in het bestand behouden. Dubbele identificatie vindt daarom plaats in de kolom email van de tijdelijke resource. Twee e-mailadressen staan echter twee keer in het bestand. Daarom worden twee regels als duplicaten beschouwd.

 • An Gegevens bijwerken Met deze activiteit kunt u de gegevens die van het deduplicatieproces worden bewaard, in de database invoegen. Pas wanneer de data worden bijgewerkt, worden de geïmporteerde data geïdentificeerd als behorend tot de profieldimensie.

  Hier willen we Insert only uitvoeren op de profielen die nog niet bestaan in de database. We gaan dit doen door de e-mailkolom van het bestand en het e-mailveld van de dimensie Profile te gebruiken als de afstemmingssleutel.

  Geef de toewijzingen op tussen de kolommen van het bestand waaruit u de data en de databasevelden vanaf het tabblad Fields to update wilt invoegen.

Start vervolgens de workflow. De records die tijdens het deduplicatieproces zijn opgeslagen, worden vervolgens toegevoegd aan de profielen in uw database.

recommendation-more-help
3ef63344-7f3d-48f9-85ed-02bf569c4fff