Este caso de uso descreve como usar a funcionalidade Merge na atividade de Deduplication.
Para obter mais informações sobre essa funcionalidade, consulte esta seção.
A atividade Deduplication é usada para remover linhas duplicadas de um conjunto de dados. Nesse caso de uso, os dados mostrados abaixo são duplicados com base no campo Email.
Data da última modificação | Nome | Sobrenome | Telefone celular | Telefone | |
---|---|---|---|---|---|
19/05/2020 | Robert | Tisner | bob@mycompany.com | 444-444-444 | 777-777-7777 |
22/07/2020 | Bobby | Tisner | bob@mycompany.com | 777-777-7777 | |
03/10/2020 | Bob | bob@mycompany.com | 888-888-8888 |
Com a funcionalidade da atividade Desduplicação Merge, é possível configurar um conjunto de regras para a desduplicação para definir um grupo de campos a serem mesclados em um único registro de dados resultante. Por exemplo, com um conjunto de registros duplicados, você pode optar por manter o número de telefone mais antigo ou o nome mais recente.
Para habilitar a funcionalidade de mesclagem, primeiro é necessário configurar a atividade Deduplication. Para fazer isso, siga estes passos:
Abra a atividade e clique no link [Editar configuração].
Selecione o campo de reconciliação a ser usado para a desduplicação e clique em Next. Neste exemplo, queremos desduplicar com base no campo de email.
Clique no link Advanced parameters e ative as opções Merge records e Use several record merging criteria.
A guia Merge é adicionada à tela de configuração Deduplication. Usaremos essa guia para especificar os dados a serem mesclados ao executar a desduplicação.
Estas são as regras que queremos usar para mesclar os dados em um único registro:
Para configurar essas regras, siga estas etapas:
Abra a guia Merge e clique no botão Add.
Especifique o identificador e o rótulo do grupo de campos que serão mesclados.
Indique as condições de seleção dos registros que serão considerados.
Classifique pela última data de modificação para selecionar o nome mais recente.
Selecione os campos que serão mesclados. Neste exemplo, queremos manter os campos de nome e sobrenome.
Os campos são adicionados ao conjunto de dados para mesclagem, e um novo elemento é adicionado ao esquema de fluxo de trabalho.
Repita essas etapas para configurar os campos de telefone celular e telefone.
Depois da configuração dessas regras, os dados a seguir são recebidos ao fim da atividade Deduplication.
Data de modificação | Nome | Sobrenome | Telefone celular | Telefone | |
---|---|---|---|---|---|
19/05/2020 | Robert | Tisner | bob@mycompany.com | 444-444-444 | 777-777-7777 |
22/07/2020 | Bobby | Tisner | bob@mycompany.com | 777-777-7777 | |
03/10/2020 | Bob | bob@mycompany.com | 888-888-8888 |
O resultado é mesclado dos três registros de acordo com as regras configuradas anteriormente. Após a comparação, conclui-se que o nome e o telefone celular mais recentes são usados, juntamente com o número de telefone original.
Nome | Sobrenome | Telefone celular | Telefone | |
---|---|---|---|---|
Bobby | Tisner | bob@mycompany.com | 444-444-4444 | 888-888-8888 |
Observe que o nome que foi mesclado é "Bobby", porque configuramos uma regra de "Nome" composta dos campos de nome e sobrenome.
Como resultado, "Bob" (o nome mais recente) não pôde ser levado em consideração porque o campo de sobrenome associado estava vazio. A combinação mais recente de nomes e sobrenomes foi mesclada no registro final.