Anulación de duplicación deduplication

Descripción description

La actividad Deduplication le permite eliminar duplicados en los resultados de las actividades entrantes.

Contexto de uso context-of-use

La actividad Deduplication se utiliza generalmente después de actividades de segmentación o después de importar un archivo y antes de actividades que permiten el uso de datos de objetivo.

Durante la deduplicación, las transiciones entrantes se procesan por separado. Por ejemplo, si el perfil “A” está presente como resultado de la consulta 1 y también como resultado de la consulta 2, no se deduplicará.

Por lo tanto, se aconseja que una deduplicación solo tenga una transición entrante. Para ello, puede combinar sus diferentes consultas mediante actividades que se correspondan con sus necesidades de segmentación, como una actividad de unión, una actividad de intersección, etc. Por ejemplo:

Temas relacionados

Configuración configuration

Para configurar una actividad de deduplicación, debe introducir una etiqueta, el método y los criterios de deduplicación, así como las opciones relacionadas con el resultado.

  1. Arrastre y suelte una actividad de Deduplication en el flujo de trabajo.

  2. Seleccione la actividad y, a continuación, ábrala con el botón , en las acciones rápidas que aparecerán.

  3. Seleccione el Resource type en que debe llevarse a cabo la deduplicación:

    • Database resource si la deduplicación se realiza sobre datos que ya existen en la base de datos. Seleccione Filtering dimension y Targeting dimension, en función de los datos que desee deduplicar. De forma predeterminada, la deduplicación se realiza en los perfiles.
    • Temporary resource si la deduplicación se realiza en los datos temporales del flujo de trabajo: seleccione el Targeted set que contiene los datos que desea deduplicar. Este caso de uso se puede encontrar después de importar un archivo o si los datos de la base de datos se han enriquecido (por ejemplo, con un código de segmento).
  4. Seleccione el Number of unique records to keep. El valor predeterminado de este campo es 1. El valor 0 le permite mantener todos los duplicados.

    Por ejemplo, si los registros A y B se consideran duplicados del registro Y, y un registro C se considera un duplicado del registro Z:

    • Si el valor del campo es 1: solo se guardan los registros Y y Z.
    • Si el valor del campo es 0: se guardan todos los registros.
    • Si el valor del campo es 2: se conservan los registros C y Z y se conservan dos registros de A, B e Y, al azar o en función del método de deduplicación seleccionado posteriormente.
  5. Defina los criterios Duplicate identification agregando condiciones en la lista proporcionada. Especifique los campos o expresiones para los que los valores idénticos permiten identificar los duplicados: dirección de correo electrónico, nombre, apellidos, etc. El orden de las condiciones le permite especificar las que se procesarán en primer lugar.

  6. En la lista desplegable, seleccione el Deduplication method que desee utilizar:

    • Choose for me: selecciona de forma aleatoria el registro que se va a excluir de los duplicados.

    • Following a list of values: permite definir una prioridad de valor para uno o varios campos. Para definir los valores, seleccione un campo o cree una expresión y, a continuación, añada los valores a la tabla adecuada. Para definir un nuevo campo, haga clic en el botón Add situado sobre la lista de valores.

    • Non-empty value: esto permite mantener registros para los que el valor de la expresión seleccionada no está vacío como prioridad.

    • Using an expression: esto le permite mantener los registros en los que el valor de la expresión introducida es el más pequeño o el más grande.

  7. Si es necesario, administre las Transiciones de la actividad para acceder a las opciones avanzadas de la población saliente.

  8. Confirme la configuración de la actividad y guarde el flujo de trabajo.

recommendation-more-help
3ef63344-7f3d-48f9-85ed-02bf569c4fff