Deduplica di dati da un file importato deduplicating-the-data-from-an-imported-file
Questo esempio mostra come deduplicare dati da un file importato prima di caricarli nel database. Questa procedura migliora la qualità dei dati caricati nel database.
Il flusso di lavoro è costituito da:
-
Un file che contiene un elenco di profili viene importato utilizzando un'attività Load file. In questo esempio, il file importato è in formato .csv e contiene 10 profili:
code language-none lastname;firstname;dateofbirth;email Smith;Hayden;23/05/1989;hayden.smith@example.com Mars;Daniel;17/11/1987;dannymars@example.com Smith;Clara;08/02/1989;hayden.smith@example.com Durance;Allison;15/12/1978;allison.durance@example.com Lucassen;Jody;28/03/1988;jody.lucassen@example.com Binder;Tom;19/01/1982;tombinder@example.com Binder;Tommy;19/01/1915;tombinder@example.com Connor;Jade;10/10/1979;connor.jade@example.com Mack;Clarke;02/03/1985;clarke.mack@example.com Ross;Timothy;04/07/1986;timross@example.com
Questo file può essere utilizzato anche come file campione per rilevare e definire il formato delle colonne. Dalla scheda Column definition, accertati che ogni colonna del file importato sia configurata correttamente.
-
Un'attività Deduplication. La deduplicazione viene eseguita direttamente dopo l’importazione del file e prima dell’inserimento dei dati nel database. Dovrebbe pertanto basarsi sulla Temporary resource dell’attività Load file.
Per questo esempio, desideriamo conservare una singola voce per indirizzo e-mail univoco contenuto nel file. L’identificazione dei duplicati viene quindi eseguita nella colonna e-mail della risorsa temporanea. Tuttavia, due indirizzi e-mail vengono visualizzati due volte nel file. Due righe saranno pertanto considerate come duplicati.
-
Un'attività Update data consente di inserire nel database i dati conservati dal processo di deduplicazione. È solo quando i dati vengono aggiornati che i dati importati vengono identificati come appartenenti alla dimensione di profilo.
A questo punto, desideriamo Insert only i profili che non esistono già nel database. A tal fine, utilizzeremo la colonna e-mail del file e il campo e-mail dalla dimensione di Profilo come chiave di riconciliazione.
Specifica le mappature tra le colonne del file da cui desideri inserire i dati e i campi del database dalla scheda Fields to update.
Quindi avvia il flusso di lavoro. I record salvati dal processo di deduplicazione vengono quindi aggiunti ai profili nel database.