Questo esempio descrive come utilizzare la funzionalità Merge nell'attività Deduplication.
Per ulteriori informazioni su questa funzionalità, consultare questa sezione.
L'attività Deduplication viene utilizzata per rimuovere righe duplicate da un set di dati. In questo caso d’uso, i dati riportati di seguito vengono duplicati in base al campo E-mail.
Data ultima modifica | Nome | Cognome | Cellulare | Telefono | |
---|---|---|---|---|---|
19/05/2020 | Robert | Tisner | bob@mycompany.com | 444-444-444 | 777-777-7777 |
22/07/2020 | Bobby | Tisner | bob@mycompany.com | 777-777-7777 | |
03/10/2020 | Bob | bob@mycompany.com | 888-888-8888 |
Con la funzionalità Merge dell'attività di deduplicazione, puoi configurare un set di regole per la deduplicazione per definire un gruppo di campi da unire in un singolo record di dati risultante. Ad esempio, con un set di record duplicati, potete scegliere di mantenere il numero di telefono più vecchio o il nome più recente.
Per abilitare la funzionalità di unione, è innanzitutto necessario configurare l'attività Deduplication. Per farlo, esegui questi passaggi:
Aprite l'attività, quindi fate clic sul collegamento [Modifica configurazione].
Selezionare il campo di riconciliazione da utilizzare per la deduplicazione, quindi fare clic su Next. In questo esempio, vogliamo deduplicare in base al campo e-mail.
Fare clic sul collegamento Advanced parameters, quindi attivare le opzioni Merge records e Use several record merging criteria.
La scheda Merge viene aggiunta alla schermata di configurazione Deduplication. Questa scheda consente di specificare i dati da unire durante l'esecuzione della deduplicazione.
Di seguito sono riportate le regole che si desidera utilizzare per unire i dati in un singolo record:
Per configurare queste regole, attenetevi alla procedura seguente:
Aprite la scheda Merge, quindi fate clic sul pulsante Add.
Specificare l'identificatore e l'etichetta del gruppo di campi da unire.
Indicare le condizioni per la selezione dei record da prendere in considerazione.
Ordinare in base all'ultima data di modifica per selezionare il nome più recente.
Selezionare i campi da unire. In questo esempio, vogliamo mantenere i campi nome e cognome.
I campi vengono aggiunti al set di dati da unire e un nuovo elemento viene aggiunto allo schema del flusso di lavoro.
Ripetete questi passaggi per configurare i campi telefono e telefono cellulare.
Dopo la configurazione di queste regole, i dati seguenti vengono ricevuti alla fine dell'attività Deduplication.
Data modifica | Nome | Cognome | Cellulare | Telefono | |
---|---|---|---|---|---|
19/05/2020 | Robert | Tisner | bob@mycompany.com | 444-444-444 | 777-777-7777 |
22/07/2020 | Bobby | Tisner | bob@mycompany.com | 777-777-7777 | |
03/10/2020 | Bob | bob@mycompany.com | 888-888-8888 |
Il risultato viene unito dai tre record in base alle regole configurate in precedenza. Dopo il confronto, si conclude che vengono utilizzati il nome e il telefono cellulare più recenti, insieme al numero di telefono originale.
Nome | Cognome | Cellulare | Telefono | |
---|---|---|---|---|
Bobby | Tisner | bob@mycompany.com | 444-444-4444 | 888-888-8888 |
Il nome che è stato unito è "Bobby", perché abbiamo configurato una regola "Nome" composta sia dal nome che dal cognome.
Di conseguenza, non è stato possibile prendere in considerazione "Bob" (il nome più recente) perché il campo del cognome associato era vuoto. La combinazione più recente di nomi e cognomi è stata unita nel record finale.