Desduplicação deduplication
Descrição description
A atividade de Deduplication permite excluir duplicados no(s) resultado(s) das atividades de entrada.
Contexto de uso context-of-use
A atividade Deduplication é geralmente usada após atividades de direcionamento ou após a importação de um arquivo e antes de atividades que permitem o uso de dados direcionados.
Durante a desduplicação, as transições de entrada são processadas separadamente. Por exemplo, se o perfil “A” estiver presente no resultado da consulta 1 e também no resultado da consulta 2, ele não será desduplicado.
Por conseguinte, é aconselhável que uma desduplicação tenha somente uma transição de entrada. Para fazer isso, combine as consultas usando atividades que correspondam às suas necessidades de direcionamento, como uma atividade de união, uma atividade de intersecção etc. Por exemplo:
Tópicos relacionados
Configuração configuration
Para configurar uma atividade de desduplicação, é necessário inserir um rótulo, o método e os critérios de desduplicação, bem como as opções relacionadas ao resultado.
-
Arraste e solte uma atividade Deduplication no seu fluxo de trabalho.
-
Selecione e abra a atividade usando o botão das ações rápidas exibidas.
-
Selecione o Resource type no qual a desduplicação será realizada:
- Database resource se a desduplicação for realizada com dados que já existem na base de dados. Selecione a Filtering dimension e a Targeting dimension, dependendo dos dados que deseja desduplicar. Por padrão, a desduplicação é realizada nos perfis.
- Temporary resource se a desduplicação for realizada nos dados temporários do fluxo de trabalho: selecione o Targeted set que contenha os dados que serão desduplicados. Esse caso de uso pode ser encontrado após a importação de um arquivo ou se os dados no banco de dados foram enriquecidos (com um código de segmento, por exemplo).
-
Selecione Number of unique records to keep. O valor padrão para esse campo é 1. O valor 0 permite manter todas as duplicatas.
Por exemplo, se os registros A e B forem considerados duplicatas do registro Y, e um registro C for considerado uma duplicata do registro Z:
- Se o valor do campo for 1: somente os registros Y e Z são mantidos.
- Se o valor do campo for 0: todos os registros são mantidos.
- Se o valor do campo for 2: os registros C e Z são mantidos. Os dois registros de A, B e Y são mantidos por acaso ou dependendo do método de desduplicação selecionado posteriormente.
-
Defina os critérios de Duplicate identification adicionando condições na lista fornecida. Especifique os campos e/ou expressões cujos valores idênticos permitem a identificação dos duplicados: endereço de email, nome, sobrenome etc. A ordem das condições permite especificar os que devem ser processados primeiro.
-
Na lista suspensa, selecione o Deduplication method que será usado:
-
Choose for me: seleciona aleatoriamente o registro que será mantido fora das duplicatas.
-
Following a list of values: permite definir uma prioridade de valor para um ou mais campos. Para definir os valores, selecione um campo ou crie uma expressão e adicione o(s) valor(es) à tabela apropriada. Para definir um novo campo, clique no botão Add localizado acima da lista de valores.
-
Non-empty value: permite manter registros para os quais o valor da expressão selecionada não está vazio como uma prioridade.
-
Using an expression: permite manter os registros nos quais o valor da expressão inserida é o menor ou o maior.
-
-
Se necessário, gerencie as Transições de atividade para acessar as opções avançadas para a população de saída.
-
Confirme a configuração da sua atividade e salve o fluxo de trabalho.