Deduplizierung deduplication
Die Deduplizierung dient der Identifizierung von Dubletten in der oder den eingehenden Aktivitäten. Zur Identifizierung können beispielsweise die E-Mail-Adresse, eine Telefonnummer oder andere Felder herangezogen werden.
Die Aktivität Deduplizierung wird zum Entfernen von Duplikat-Zeilen aus einem Datensatz verwendet. Die folgenden Datensätze können beispielsweise als Duplikate betrachtet werden, da sie dieselbe E-Mail-Adresse und dieselbe Mobil- und/oder Festnetztelefonnummer haben.
Die Aktivität Deduplizierung kann eine ganze Zeile als den einzigen Datensatz speichern, nachdem Duplikate identifiziert wurden. Wenn die Aktivität beispielsweise im oben genannten Anwendungsfall so konfiguriert ist, dass nur der Datensatz mit dem ältesten Datum beibehalten wird, lautet das Ergebnis:
Der ausgewählte Hauptdatensatz leitet die Daten weiter, ohne dass Felddaten mit anderen relevanten Daten in den Duplikat-Zeilen zusammengeführt werden.
Komplement:
Best Practices best-practices
Bei der Deduplizierung werden die eingehenden Datenströme getrennt verarbeitet. Wenn also ein Empfänger 'A' sowohl im Ergebnis der Abfrage 1 als auch im Ergebnis der Abfrage 2 enthalten ist, wird er nicht dedupliziert.
In diesem Fall ist wie folgt vorzugehen:
- Schließen Sie an die Abfragen zunächst eine Vereinigung an, um alle eingehenden Datenströme zusammenzufassen.
- Erstellen Sie dann eine Deduplizierung im Anschluss an die Vereinigung.
Konfiguration configuration
Die Aktivität ist zu benennen, Deduplizierungsmethode und -bedingungen sind anzugeben und gegebenenfalls Optionen in Bezug auf das Ergebnis zu wählen.
-
Klicken Sie auf den Link Konfiguration bearbeiten…, um die Deduplizierungsmethode zu definieren.
-
Wählen Sie den Typ der Zielgruppe für diese Aktivität (Deduplizierung ist standardmäßig mit Empfängern verknüpft) und das zu verwendende Kriterium aus, d. h. das Feld, in dem Sie durch identische Werte Duplikate identifizieren können.
note note NOTE Wenn Sie externe Daten als Eingabe verwenden möchten (z. B. Daten aus einer externen Datei), müssen Sie die Option Temporäres Schema markieren. Die Option Andere ermöglicht im nächsten Schritt die Auswahl der zu verwendenden Kriterien: -
Die Option Andere ermöglicht im nächsten Schritt die Auswahl der zu verwendenden Kriterien im Fall von identischen Werten.
-
Wählen Sie aus der Dropdown-Liste die gewünschte Methode aus und geben Sie die Anzahl an beizubehaltenden Dubletten an.
Folgende Methoden stehen zur Verfügung:
-
Automatische Auswahl: wählt nach dem Zufallsprinzip unter den Dubletten den beizubehaltenden Datensatz aus.
-
Gemäß einer Werteliste: ermöglicht die Bestimmung einer Reihenfolge nach Priorität von Werten für ein oder mehrere Felder. Wählen Sie zur Bestimmung dieser Werte ein Feld aus oder erstellen Sie einen Ausdruck, fügen Sie dann den oder die Werte der entsprechenden Tabelle hinzu. Verwenden Sie die Schaltfläche Hinzufügen oberhalb der Werteliste, um ein neues Feld zu definieren.
-
Wert nicht leer: hiermit lassen sich vornehmlich jene Datensätze beibehalten, für die der Wert des ausgewählten Ausdrucks nicht leer ist.
-
Von einem Ausdruck ausgehend: Beibehalten werden die Datensätze, für die der ausgewählte Ausdruck den kleinsten oder größen Wert aufweist.
note note NOTE Mit der Funktion Zusammenführen, die über den Link Erweiterte Parameter aufgerufen werden kann, können Sie einen Regelsatz konfigurieren, um ein Feld oder eine Gruppe von Feldern zu einem einzigen Ergebnisdatensatz zusammenzuführen. Weitere Informationen hierzu finden Sie unter Zusammenführen von Feldern zu einem einzigen Datensatz. -
-
Klicken Sie auf Beenden, um die Auswahl der Deduplizierungsmethode zu bestätigen.
Die konfigurierten Deduplizierungsparameter werden zusammenfassend angezeigt.
Im unteren Bereich des Fensters können Sie den Titel der ausgehenden Transition anpassen und einen Segment-Code angeben, der dem Ergebnis zugeordnet wird. Dieser Code kann im weiteren Verlauf als Kriterium bei der Zielgruppenbestimmung herangezogen werden.
-
Kreuzen Sie die Option Komplement erzeugen an, wenn Sie auch die restliche Population im weiteren Verlauf des Workflows verwenden möchten. Das Komplement enthält in diesem Fall alle Dubletten und die Aktivität weist somit, wie unten abgebildet, eine zusätzliche Transition auf:
Anwendungsbeispiel: Duplikate identifizieren, bevor ein Versand gestartet wird example--identify-the-duplicates-before-a-delivery
Im folgenden Beispiel soll die Vereinigung der Ergebnisse dreier Abfragen dedupliziert werden.
Ziel des Workflows ist die Bestimmung einer Versandzielgruppe ohne Dubletten, damit dieselben Empfänger den Versand nicht mehrmals erhalten.
Die identifizierten Dubletten werden für eine eventuelle spätere Verwendung in einer spezifischen Liste gespeichert.
-
Positionnieren Sie die erforderlichen Aktivitäten wie oben abgebildet im Workflow-Diagramm.
Die Vereinigungsaktivität dient hier der Zusammenführung der verschiedenen Abfrageergebnisse in einer ausgehenden Transition. Auf diese Weise erfolgt die Deduplizierung nicht separat für jede Abfrage, sondern gebündelt für alle Ergebnisse. Weitere Informationen zu diesem Thema finden Sie unter Best Practices.
-
Öffnen Sie die Deduplizierungsaktivität und klicken Sie auf den Link Konfiguration bearbeiten…, um die Deduplizierungsmethode zu bestimmen.
-
Wählen Sie im sich öffnenden Fenster die Option Datenbankschema aus.
-
Wählen Sie für die Zielgruppen- und die Filterdimension jeweils Empfänger aus.
-
Kreuzen Sie E-Mail als Identifizierungskriterium der Dubletten an, damit jeder Empfänger den Versand nur einmal erhält. Klicken Sie auf Weiter.
Wenn die Identifizierung der Dubletten auf einem anderen als den angebotenen Feldern basieren soll, kreuzen Sie Sonstige an. Im nächsten Schritt können Sie dann das Feld aus den in der zugrundeliegenden Tabelle enthaltenen auswählen.
-
Geben Sie an, dass nur ein Datensatz beibehalten werden soll, wenn dieselbe E-Mail-Adresse für mehrere Empfänger identifiziert wurde.
-
Wählen Sie als Deduplizierungsmethode Automatische Auswahl, damit der beizubehaltende Datensatz zufällig bestimmt wird. Klicken Sie abschließend auf Beenden.
Bei Ausführung des Workflows werden die als Dubletten identifizierten Empfänger von der Ergebnismenge (und somit vom Versand) ausgeschlossen und in der Liste der Dubletten gespeichert. Diese Liste kann erneut verwendet werden, um die Identifizierung der Dubletten nicht wiederholt vornehmen zu müssen.
Zusammenführen von Feldern zu einem einzigen Datensatz merging-fields-into-single-record
Mit der Funktion Zusammenführen können Sie einen Regelsatz für die Deduplizierung konfigurieren, um ein Feld oder eine Feldgruppe zu definieren, das bzw. die zu einem einzigen Ergebnisdatensatz zusammengeführt werden soll.
Bei einer Reihe von Duplikat-Datensätzen können Sie beispielsweise entscheiden, jeweils die älteste Telefonnummer oder den neuesten Namen beizubehalten.
Ein Anwendungsfall, der diese Funktion nutzt, ist in diesem Abschnitt verfügbar.
Gehen Sie dazu wie folgt vor:
-
Klicken Sie im Auswahlschritt Deduplizierungsmethode auf den Link Erweiterte Parameter.
-
Wählen Sie die Option Datensätze zusammenführen aus, um die Funktion zu aktivieren.
Wenn Sie mehrere Datenfelder in jeder Zusammenführungsbedingung gruppieren möchten, aktivieren Sie die Option Mehrere Kriterien für die Zusammenführung von Datensätzen verwenden.
-
Nach Aktivierung der Funktion wird der Aktivität Deduplizierung die Registerkarte Zusammenführen hinzugefügt. Damit können Sie Gruppen von Feldern definieren, die zusammengeführt werden sollen, sowie die zugehörigen Regeln.
Weitere Informationen hierzu finden Sie im Anwendungsfall in diesem Abschnitt.
Eingabeparameter input-parameters
- tableName
- schema
Jedes eingehende Ereignis muss eine durch diese Parameter definierte Zielgruppe angeben.
Ausgabeparameter output-parameters
- tableName
- schema
- recCount
Anhand der drei Werte lässt sich die durch die Deduplizierung ermittelte Zielgruppe identifizieren. tableName ist der Name der Tabelle, die die Kennungen der Zielgruppenempfänger speichert, schema ist das Schema der Population, (i. d. R. nms:recipient) und recCount ist die Anzahl an Elementen in der Tabelle.
Die Transition des Komplements weist die gleichen Parameter auf.