Deduplicatie deduplication
Beschrijving description
Met de activiteit Deduplication kunt u duplicaten in het resultaat of de resultaten van de binnenkomende activiteiten verwijderen.
Gebruikscontext context-of-use
De activiteit Deduplication wordt over het algemeen gebruikt na targetingactiviteiten of na het importeren van een bestand en vóór activiteiten die het gebruik van getargete data mogelijk maken.
Tijdens deduplicatie worden binnenkomende overgangen afzonderlijk verwerkt. Als profiel A bijvoorbeeld aanwezig is in het resultaat van query 1 en ook in het resultaat van query 2, wordt het profiel niet gededupliceerd.
Daarom wordt aangeraden slechts één binnenkomende overgang in te stellen voor een deduplicatie. U doet dit door verschillende query's te combineren door activiteiten te gebruiken die aan uw targetingbehoeften voldoen zoals een activiteit Samenvoeging, een activiteit Doorsnede enzovoort. Bijvoorbeeld:
Verwante onderwerpen
Configuratie configuration
Om een deduplicatie-activiteit te configureren, moet u een label, de methode en de deduplicatiecriteria invoeren, evenals de opties met betrekking tot het resultaat.
-
Sleep een activiteit Deduplication en zet deze neer in uw workflow.
-
Selecteer de activiteit en open deze met de knop vanuit de snelle acties die verschijnen.
-
Selecteer het Resource type waarop de deduplicatie moet worden uitgevoerd:
- Database resource als de deduplicatie wordt uitgevoerd op data die al in de database aanwezig zijn. Selecteer de Filtering dimension en de Targeting dimension, afhankelijk van de data die u wilt dedupliceren. Standaard wordt deduplicatie uitgevoerd op de profielen.
- Temporary resource als de deduplicatie wordt uitgevoerd op de tijdelijke data van de workflow: selecteer de Targeted set met de data die u wilt dedupliceren. Dit gebruiksscenario kan optreden na het importeren van een bestand of als de data in de database zijn verrijkt (bijvoorbeeld met een segmentcode).
-
Selecteer het Number of unique records to keep. De standaardwaarde voor dit veld is 1. Met de waarde 0 kunt u alle duplicaten behouden.
Stel bijvoorbeeld dat records A en B worden beschouwd als duplicaten van record Y en dat een record C wordt beschouwd als duplicaat van record Z:
- Als de waarde van het veld 1 is: alleen de records Y en Z blijven behouden.
- Als de waarde van het veld 0 is: alle records blijven behouden.
- Als de waarde van het veld 2 is: de records C en Z blijven behouden en twee records van A, B en Y blijven behouden, bij toeval of afhankelijk van de daarna geselecteerde deduplicatiemethode.
-
Definieer de criteria voor Duplicate identification door voorwaarden toe te voegen in de opgegeven lijst. Geef de velden en/of expressies op waarvoor de duplicaten met dezelfde waarden kunnen worden geïdentificeerd: e-mailadres, voornaam, achternaam, enzovoort. In de volgorde van de voorwaarden kunt u opgeven welke voorwaarden eerst moeten worden verwerkt.
-
Selecteer in de vervolgkeuzelijst de te gebruiken Deduplication method:
-
Choose for me: Hiermee selecteert u willekeurig de record die u uit de duplicaten wilt houden.
-
Following a list of values: Hiermee kunt u een waardeprioriteit voor een of meer velden definiëren. Als u de waarden wilt definiëren, selecteert u een veld of maakt u een expressie en vervolgens voegt u de waarde(n) toe aan de desbetreffende tabel. Als u een nieuw veld wilt definiëren, klikt u op de knop Add boven de lijst met waarden.
-
Non-empty value: Hiermee kunt u records waarvoor de waarde van de geselecteerde expressie niet leeg is als prioriteit behouden.
-
Using an expression: Hiermee kunt u de records behouden waarin de waarde van de ingevoerde expressie het kleinst of het grootst is.
-
-
Indien nodig beheert u de Overgangen van de activiteit om toegang te krijgen tot de geavanceerde opties voor de uitgaande populatie.
-
Bevestig de configuratie van uw activiteit en sla de workflow op.