Deduplica

La deduplicazione elimina i duplicati dai risultati delle attività in entrata. È possibile eseguire la deduplicazione sull'indirizzo e-mail, sul numero di telefono o su un altro campo.

La Deduplication viene utilizzata per rimuovere righe duplicate da un set di dati. Ad esempio, i record seguenti potrebbero essere considerati duplicati in quanto hanno lo stesso indirizzo e-mail e lo stesso telefono cellulare e/o domestico.

Data ultima modifica Nome Cognome E-mail Telefono cellulare Telefono
02/03/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888
05/19/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
07/22/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

La Deduplication l’attività ha la capacità di mantenere un’intera riga come record univoco dopo l’identificazione dei duplicati. Ad esempio, nel caso d’uso precedente, se l’attività è configurata per mantenere solo il record con il record più vecchio Date, il risultato sarebbe:

Data Nome Cognome E-mail Telefono cellulare Telefono
02/03/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888

Il record principale selezionato riporterà i dati senza alcuna unione dei dati di campo con altri dati pertinenti nelle righe duplicate.

Complemento:

Data Nome Cognome E-mail Telefono cellulare Telefono
05/19/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
07/22/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

Best practice

Durante la deduplicazione, i flussi in entrata vengono elaborati separatamente. Se ad esempio il destinatario A si trova nel risultato della query 1 e nel risultato della query 2, non verrà deduplicato.

Questo problema deve essere affrontato come segue:

  • Crea un Union per unificare ogni flusso in entrata.
  • Crea un Deduplication dopo Union attività.

Configurazione

Per configurare una deduplicazione, immetti la relativa etichetta, il metodo e i criteri di deduplicazione, nonché le opzioni relative al risultato.

  1. Fai clic sul pulsante Edit configuration… collegamento per definire la modalità di deduplicazione.

  2. Seleziona il tipo di target per questa attività (per impostazione predefinita, la deduplicazione è collegata ai destinatari) e il criterio da utilizzare, ovvero il campo per il quale valori identici ti consentono di identificare i duplicati.

    NOTA

    Se utilizzi dati esterni come input, ad esempio da un file esterno, assicurati di selezionare il Temporary schema opzione .

    Nel passaggio successivo, la Other consente di selezionare il criterio o i criteri da utilizzare:

  3. Nel passaggio successivo, la Other consente di selezionare il criterio o i criteri da utilizzare in caso di valori identici.

  4. Dall’elenco a discesa, seleziona il metodo di deduplicazione da utilizzare e immetti il numero di duplicati da mantenere.

    Sono disponibili i seguenti metodi:

    • Choose for me: seleziona in modo casuale il record da escludere dai duplicati.

    • Following a list of values: ti consente di definire un valore di priorità per uno o più campi. Per definire i valori, seleziona un campo o crea un’espressione, quindi aggiungi i valori nella tabella appropriata. Per definire un nuovo campo, fai clic sul pulsante Add situato sopra l’elenco dei valori.

    • Non-empty value: questo ti consente di conservare i record per i quali il valore dell’espressione selezionata non è vuoto come priorità.

    • Using an expression: consente di conservare i record con il valore più basso (o più alto) dell’espressione specificata.

    NOTA

    La Merge accessibile tramite Advanced parameters link, ti consente di configurare un set di regole per unire un campo o un gruppo di campi in un unico record di dati risultante. Per ulteriori informazioni, consulta Unione dei campi in un singolo record.

  5. Fai clic su Finish per approvare il metodo di deduplicazione selezionato.

    La sezione centrale della finestra riepiloga la configurazione definita.

    Nella sezione inferiore della finestra dell’editor attività, puoi modificare l’etichetta per la transizione in uscita dell’oggetto grafico e immettere un codice di segmento che sarà associato al risultato dell’attività. Questo codice può in seguito essere utilizzato come criterio di targeting.

  6. Controlla la Generate complement se desideri sfruttare la popolazione rimanente. Il complemento è costituito da tutti i duplicati. All’attività verrà quindi aggiunta una transizione aggiuntiva, come segue:

Esempio: Identificare i duplicati prima di una consegna

Nell’esempio seguente, la deduplicazione riguarda l’unione di tre query.

Lo scopo del flusso di lavoro è quello di definire il target per una consegna escludendo i duplicati per evitare di inviarlo più volte allo stesso destinatario.

I duplicati identificati saranno inoltre integrati in un elenco di duplicati dedicati che potrà essere riutilizzato se necessario.

  1. Aggiungi e collega le varie attività necessarie per il funzionamento del flusso di lavoro come mostrato sopra.

    L’attività di unione viene utilizzata qui per "unificare" le tre query in un’unica transizione. Pertanto, la deduplicazione non funzionerà per ogni query singolarmente ma per l’intera query. Per ulteriori informazioni su questo argomento, consulta Best practice.

  2. Apri l’attività di deduplicazione, quindi fai clic su Edit configuration… collegamento per definire la modalità di deduplicazione.

  3. Nella nuova finestra, seleziona Database schema.

  4. Seleziona Destinatari come dimensioni di targeting e filtro.

  5. Seleziona il campo ID per la Email duplica, per inviare la consegna una sola volta a ogni indirizzo e-mail, quindi fai clic su Next.

    Se desideri basare gli ID duplicati su un campo specifico, seleziona Other per accedere all’elenco dei campi disponibili.

  6. Scegli di mantenere una sola voce quando lo stesso indirizzo e-mail viene identificato per più destinatari.

  7. Seleziona la Choose for me modalità di deduplicazione in modo che i record salvati in caso di duplicati identificati siano scelti in modo casuale, quindi fare clic su Finish.

Durante l’esecuzione del flusso di lavoro, tutti i destinatari identificati come duplicati vengono esclusi dal risultato (e quindi dalla consegna) e aggiunti all’elenco dei duplicati. Questo elenco può essere utilizzato di nuovo anziché dover reidentificare i duplicati.

Unione dei campi in un singolo record di dati

La Merge La funzionalità ti consente di configurare un set di regole per la deduplicazione per definire un campo o un gruppo di campi da unire in un singolo record di dati risultante.

Ad esempio, con un set di record duplicati, puoi scegliere di mantenere il numero di telefono più vecchio o il nome più recente.

È disponibile un caso d’uso che sfrutta questa funzione in questa sezione.

Per farlo, esegui questi passaggi:

  1. In Deduplication method passaggio di selezione, fai clic sul Advanced Parameters link.

  2. Seleziona la Merge records per attivare la funzionalità.

    Se desideri raggruppare più campi di dati in ciascuna condizione di unione, attiva la Use several record merging criteria opzione .

  3. Dopo aver attivato la funzionalità, un Merge viene aggiunta alla scheda Deduplication attività. Consente di definire gruppi di campi da unire e le relative regole associate.

    Per ulteriori informazioni, consulta il caso d’uso dedicato disponibile in questa sezione.

Parametri di input

  • tableName
  • schema

Ogni evento in entrata deve specificare un target definito da questi parametri.

Parametri di output

  • tableName
  • schema
  • recCount

Questo insieme di tre valori identifica il target risultante dalla deduplicazione. tableName è il nome della tabella che salva gli identificatori target, schema è lo schema della popolazione (in genere nms:recipient) e recCount è il numero di elementi nella tabella.

La transizione associata al complemento ha gli stessi parametri.

In questa pagina