Daten einer importierten Datei deduplizieren deduplicating-the-data-from-an-imported-file

In diesem Beispiel wird gezeigt, wie sich Daten einer importierten Datei vor dem Laden in die Datenbank deduplizieren lassen. Mithilfe dieses Prozesses lässt sich die Qualität der in die Datenbank geladenen Daten verbessern.

Der Workflow setzt sich folgendermaßen zusammen:

  • Datei-laden-Aktivität zum Import einer Datei, die eine Profilliste enthält. In unserem Beispiel weist die importierte Datei das .csv-Format auf und enthält 10 Profile:

    code language-none
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    

    Diese Datei kann außerdem als Beispieldatei zur Erkennung und Definition des Spaltenformats dienen. Prüfen Sie im Tab Spaltendefinition, ob jede Spalte der importierten Datei korrekt konfiguriert ist.

  • Aktivität Deduplizierung. Die Deduplizierung erfolgt direkt nach dem Dateiimport und vor der Einfügung der Daten in die Datenbank. Sie basiert folglich auf der von der Datei-laden-Aktivität erzeugten temporären Ressource.

    Im vorliegenden Beispiel soll pro in der Datei enthaltener E-Mail-Adresse ausschließlich ein Eintrag beibehalten werden. Die Identifizierung der Dubletten erfolgt also mittels der Spalte email der temporären Ressource. Nun tauchen zwei E-Mail-Adressen aber jeweils zweimal in der Datei auf. Zwei Zeilen werden also als Dubletten angesehen.

  • Die Aktivität Daten-Update ermöglicht die Einfügung der nach der Deduplizierung beibehaltenen Daten in die Datenbank. Die importierten Daten werden erst zum Zeitpunkt des Daten-Updates als der Profildimension zugehörig identifiziert.

    Als Aktionstyp wurde im vorliegenden Beispiel Nur hinzufügen gewählt, um noch nicht vorhandene Profile in die Datenbank aufzunehmen. Als Abstimmschlüssel werden dabei die E-Mail-Spalte der Datei und das E-Mail-Feld der Profil-Dimension verwendet.

    Führen Sie im Tab Zu aktualisierende Felder das Mapping zwischen den Dateispalten, deren Daten Sie einfügen möchten, und den entsprechenden Feldern der Datenbank durch.

Starten Sie nun den Workflow. Die nach der Deduplizierung beibehaltenen Datensätze werden nun den Profilen Ihrer Datenbank hinzugefügt.

recommendation-more-help
3ef63344-7f3d-48f9-85ed-02bf569c4fff