Deduplicatie deduplication
Deduplicatie verwijdert duplicaten van de resultaten van binnenkomende activiteiten. U kunt deduplicatie uitvoeren op het e-mailadres, telefoonnummer of een ander veld.
De Deduplication -activiteit wordt gebruikt voor het verwijderen van dubbele rijen uit een gegevensset. De onderstaande records kunnen bijvoorbeeld als duplicaat worden beschouwd omdat ze hetzelfde e-mailadres en hetzelfde mobiele en/of thuistelefoon hebben.
De Deduplication -activiteit kan een hele rij als unieke record bewaren nadat duplicaten zijn geïdentificeerd. Als in het bovenstaande geval bijvoorbeeld de activiteit is geconfigureerd om alleen de record bij de oudste Date te houden, is het resultaat:
De geselecteerde hoofdrecord stuurt de gegevens door zonder dat veldgegevens worden samengevoegd met andere relevante gegevens in de dubbele rijen.
Complementeren:
Best practices best-practices
Tijdens deduplicatie worden inkomende stromen afzonderlijk verwerkt. Als bijvoorbeeld ontvanger A in het resultaat van vraag 1 evenals in het resultaat van vraag 2 wordt gevonden, zullen zij niet worden gededupliceerd.
Deze kwestie moet als volgt worden aangepakt:
- Creeer a activiteit 0} van de Unie {om elke binnenkomende stroom te verenigen.
- Creeer a Deduplicatie activiteit na de Vereniging activiteit.
Configuratie configuration
Als u een deduplicatie wilt configureren, voert u het label, de methode en de criteria voor deduplicatie in en de opties voor het resultaat.
-
Klik op de koppeling Edit configuration… om de deduplicatiemodus te definiëren.
-
Selecteer het type doel voor deze activiteit (deduplicatie is standaard gekoppeld aan ontvangers) en het te gebruiken criterium, d.w.z. het veld waarvoor identieke waarden u in staat stellen duplicaten te identificeren.
note note NOTE Als u externe gegevens gebruikt als invoer, bijvoorbeeld uit een extern bestand, moet u de optie Temporary schema selecteren. In de volgende stap kunt u met de optie Other het criterium of de criteria selecteren die u wilt gebruiken: -
In de volgende stap kunt u met de optie Other het criterium of de criteria selecteren die moeten worden gebruikt in het geval van identieke waarden.
-
Selecteer in de vervolgkeuzelijst de deduplicatiemethode die u wilt gebruiken en voer het aantal duplicaten in dat u wilt behouden.
De volgende methoden zijn beschikbaar:
-
Choose for me: Hiermee selecteert u willekeurig de record die u uit de duplicaten wilt houden.
-
Following a list of values: Hiermee kunt u een waardeprioriteit voor een of meer velden definiëren. Als u de waarden wilt definiëren, selecteert u een veld of maakt u een expressie en vervolgens voegt u de waarde(n) toe aan de desbetreffende tabel. Als u een nieuw veld wilt definiëren, klikt u op de knop Add boven de lijst met waarden.
-
Non-empty value: Hiermee kunt u records waarvoor de waarde van de geselecteerde expressie niet leeg is als prioriteit behouden.
-
Using an expression: hiermee kunt u records met de laagste (of hoogste) waarde van de opgegeven expressie bijhouden.
note note NOTE Met de functie Merge , die toegankelijk is via de koppeling Advanced parameters , kunt u een set regels configureren om een veld of groep velden samen te voegen tot één gegevensrecord. Voor meer op dit, zie het samenvoegen van gebieden in één enkel verslag. -
-
Klik op Finish om de geselecteerde deduplicatiemethode goed te keuren.
Het middelste gedeelte van het venster geeft een overzicht van de gedefinieerde configuratie.
In de onderste sectie van het venster van de activiteitenredacteur, kunt u het etiket voor de uitgaande overgang van het grafische voorwerp wijzigen en een segmentcode ingaan die met het resultaat van de activiteit zal worden geassocieerd. Deze code kan later als het richten criterium worden gebruikt.
-
Schakel de optie Generate complement in als u de resterende populatie wilt benutten. Het complement bestaat uit alle duplicaten. Vervolgens wordt als volgt een aanvullende overgang aan de activiteit toegevoegd:
Voorbeeld: de duplicaten identificeren vóór levering example--identify-the-duplicates-before-a-delivery
In het volgende voorbeeld betreft de deduplicatie de samenvoeging van drie vragen.
Het doel van de workflow is om het doel voor een levering te bepalen door duplicaten uit te sluiten, zodat deze niet meerdere keren naar dezelfde ontvanger worden gestuurd.
De geïdentificeerde duplicaten worden ook geïntegreerd in een speciale lijst met duplicaten die indien nodig opnieuw kan worden gebruikt.
-
Voeg de verschillende activiteiten toe en koppel deze die nodig zijn om de workflow te laten werken, zoals hierboven wordt weergegeven.
De vakbondsactiviteit wordt hier gebruikt om de drie vragen in één enkele overgang te "verenigen". Op deze manier werkt deduplicatie niet voor elke query afzonderlijk, maar voor de gehele query. Voor meer op dit onderwerp, verwijs naar Beste praktijken.
-
Open de deduplicatieactiviteit en klik vervolgens op de koppeling Edit configuration… om de deduplicatiemodus te definiëren.
-
Selecteer Database schema in het nieuwe venster.
-
Selecteer Ontvangers als het richten en het filtreren dimensies.
-
Selecteer het veld Id voor de duplicaten van Email als u de levering slechts eenmaal naar elk e-mailadres wilt verzenden en klik op Next .
Als u de dubbele id's wilt baseren op een specifiek veld, selecteert u Other om de lijst met beschikbare velden te openen.
-
Kies ervoor om slechts één item bij te houden wanneer hetzelfde e-mailadres wordt geïdentificeerd voor meerdere ontvangers.
-
Selecteer de deduplicatiemodus Choose for me , zodat de records die worden opgeslagen in het geval van geïdentificeerde duplicaten willekeurig worden gekozen en klik vervolgens op Finish .
Bij het uitvoeren van de workflow worden alle ontvangers die als duplicaten zijn geïdentificeerd, uitgesloten van het resultaat (en dus van de levering) en toegevoegd aan de lijst met duplicaten. Deze lijst kan opnieuw worden gebruikt in plaats van de duplicaten opnieuw te moeten identificeren.
Velden samenvoegen tot één gegevensrecord merging-fields-into-single-record
Met de functie Merge kunt u een set regels voor deduplicatie configureren om een veld of groep velden te definiëren die moeten worden samengevoegd in één gegevensrecord.
Met een set dubbele records kunt u bijvoorbeeld het oudste telefoonnummer of de meest recente naam behouden.
Een gebruiksgeval leveraging deze eigenschap is beschikbaar in deze sectie.
Ga als volgt te werk om dit te doen:
-
Klik in de selectiestap van Deduplication method op de koppeling Advanced Parameters .
-
Selecteer de optie Merge records om de functionaliteit te activeren.
Als u meerdere gegevensvelden in elke samenvoegvoorwaarde wilt groeperen, activeert u de optie Use several record merging criteria .
-
Nadat de functionaliteit is geactiveerd, wordt een tabblad Merge toegevoegd aan de Deduplication -activiteit. Hiermee kunt u groepen velden definiëren die moeten worden samengevoegd en de bijbehorende regels.
Voor meer op dit, verwijs naar het specifieke gebruiksgeval beschikbaar in deze sectie.
Invoerparameters input-parameters
- tableName
- schema
Elke binnenkomende gebeurtenis moet een doel specificeren dat door deze parameters wordt bepaald.
Uitvoerparameters output-parameters
- tableName
- schema
- recCount
Deze reeks van drie waarden identificeert het doel dat uit de deduplicatie voortvloeit. tableName is de naam van de tabel die doel-id's opslaat. schema is het schema van de populatie (gewoonlijk nms:ontvanger) en recCount is het aantal elementen in de tabel.
De overgang verbonden aan het complement heeft de zelfde parameters.