Anulación de duplicación

La deduplicación elimina los duplicados de los resultados de las actividades entrantes. La deduplicación se puede realizar en la dirección de correo electrónico, el número de teléfono u otro campo.

La actividad Deduplication se utiliza para eliminar filas duplicadas de un conjunto de datos. Por ejemplo, los registros que se muestran a continuación pueden considerarse duplicados, ya que tienen la misma dirección de correo electrónico y el mismo teléfono móvil o fijo.

Fecha de la última modificación Nombre Apellidos Correo electrónico Teléfono móvil Teléfono
03/02/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888
19/5/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
22/07/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

La actividad Deduplication puede mantener una fila entera como registro único después de identificar duplicados. Por ejemplo, en el caso de uso anterior, si la actividad está configurada para mantener solo el registro con el Date más antiguo, el resultado sería:

Fecha Nombre Apellidos Correo electrónico Teléfono móvil Teléfono
03/02/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888

El registro maestro seleccionado reenviará los datos sin combinar los datos de campo con otros datos relevantes en las filas duplicadas.

Complemento:

Fecha Nombre Apellidos Correo electrónico Teléfono móvil Teléfono
19/05/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
22/07/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

Prácticas recomendadas

Durante la deduplicación, los flujos entrantes se procesan por separado. Si por ejemplo el destinatario A se encuentra en el resultado de la consulta 1 y en el resultado de la consulta 2, no se deduplican.

Esta cuestión debe solucionarse de la siguiente manera:

  • Cree una actividad Union para unificar cada flujo entrante.
  • Cree una actividad Deduplication después de la actividad Union.

Configuración

Para configurar una anulación de duplicación, introduzca su etiqueta, el método, los criterios de anulación de duplicación y las opciones relativas al resultado.

  1. Haga clic en el enlace Edit configuration… para definir el modo de anulación de duplicación.

  2. Seleccione el tipo de destinatario para esta actividad (de forma predeterminada, la anulación de duplicación está vinculada a destinatarios) y el criterio que utilizar (es decir, el campo cuyos valores idénticos le permiten identificar duplicados).

    NOTA

    Si utiliza datos externos como entrada, por ejemplo, de un archivo externo, asegúrese de seleccionar la opción Temporary schema.

    En el siguiente paso, la opción Other permite seleccionar los criterios que se van a utilizar:

  3. En el siguiente paso, la opción Other le permite seleccionar el criterio o los criterios que se van a utilizar en caso de valores idénticos.

  4. En la lista desplegable, seleccione el método de deduplicación que desea utilizar e introduzca el número de duplicados que desea conservar.

    Los métodos disponibles son:

    • Choose for me: selecciona de forma aleatoria el registro que se va a excluir de los duplicados.

    • Following a list of values: permite definir una prioridad de valor para uno o varios campos. Para definir los valores, seleccione un campo o cree una expresión y, a continuación, añada los valores a la tabla adecuada. Para definir un nuevo campo, haga clic en el botón Add situado sobre la lista de valores.

    • Non-empty value: esto permite mantener registros para los que el valor de la expresión seleccionada no está vacío como prioridad.

    • Using an expression: permite mantener los registros con el valor más bajo (o el más alto) de la expresión dada.

    NOTA

    La funcionalidad Merge, a la que se puede acceder mediante el vínculo Advanced parameters, permite configurar un conjunto de reglas para combinar un campo o grupo de campos en un único registro de datos resultante. Para obtener más información al respecto, consulte Combinación de campos en un único registro.

  5. Haga clic en Finish para aprobar el método de deduplicación seleccionado.

    La sección de en medio de la ventana resume la configuración definida.

    En la sección inferior de la ventana del editor de actividad, puede modificar la etiqueta para la transición de salida del objeto gráfico e introducir un código de segmento que se asociará al resultado de la actividad. Este código se puede utilizar posteriormente como criterio de establecimiento de objetivos.

  6. Seleccione la opción Generate complement si desea utilizar la población restante. El complemento está formado por todos los duplicados. A continuación, se agregará una transición adicional a la actividad de la siguiente manera:

Ejemplo: identificar los duplicados antes de una entrega

En el ejemplo siguiente, la deduplicación se refiere a la unión de tres consultas.

El objetivo del flujo de trabajo es definir el objetivo de una entrega mediante la exclusión de los duplicados para evitar enviarlo al mismo destinatario varias veces.

Los duplicados identificados también se incorporarán a una lista de duplicados que puede reutilizarse en caso necesario.

  1. Agregue y vínculo las distintas actividades necesarias para que el flujo de trabajo funcione como se muestra arriba.

    La actividad de unión se utiliza aquí para “unificar” las tres consultas en una sola transición. Por lo tanto, la deduplicación no funcionará para cada consulta por separado pero para toda la consulta. Para obtener más información, consulte Prácticas recomendadas.

  2. Abra la actividad de anulación de duplicación y haga clic en el enlace Edit configuration… para definir el modo de anulación de la duplicación.

  3. En la nueva ventana, seleccione Database schema.

  4. Seleccione Recipients como dimensiones de destino y filtrado.

  5. Seleccione el campo ID de los duplicados Email para enviar la entrega solo una vez a cada dirección de correo electrónico y haga clic en Next.

    Si desea establecer las ID duplicadas en un campo específico, seleccione Other para acceder a la lista de campos disponibles.

  6. Elija si desea conservar solo una entrada cuando se identifique la misma dirección de correo electrónico para varios destinatarios.

  7. Seleccione el modo de deduplicación Choose for me para que los registros guardados en caso de duplicados identificados se elijan aleatoriamente y, a continuación, haga clic en Finish.

Al ejecutar el flujo de trabajo, todos los destinatarios identificados como duplicados se excluyen del resultado (y, por lo tanto, de la entrega) y se añaden a la lista de duplicados. Esta lista puede utilizarse de nuevo en lugar de tener que volver a identificar los duplicados.

Combinación de campos en un único registro de datos

La funcionalidad Merge permite configurar un conjunto de reglas para la anulación de duplicación con el fin de definir un campo o grupo de campos que se combinarán en un único registro de datos resultante.

Por ejemplo, con un conjunto de registros de duplicado, puede elegir mantener el número de teléfono más antiguo o el nombre más reciente.

Hay un caso de uso que aprovecha esta función en esta sección.

Para ello, siga estos pasos:

  1. En el paso de selección Deduplication method, haga clic en el vínculo Advanced Parameters.

  2. Seleccione la opción Merge records para activar la funcionalidad.

    Si desea agrupar varios campos de datos en cada condición de combinación, active la opción Use several record merging criteria.

  3. Después de activar la funcionalidad, se agrega una pestaña Merge a la actividad Deduplication. Permite definir grupos de campos para combinar y sus reglas asociadas.

    Para obtener más información al respecto, consulte el caso de uso detallado disponible en esta sección.

Parámetros de entrada

  • tableName
  • esquema

Cada evento entrante debe especificar un objetivo definido por estos parámetros.

Parámetros de salida

  • tableName
  • esquema
  • recCount

Este conjunto de tres valores identifica el objetivo resultante de la deduplicación. tableName es el nombre de la tabla que guarda los identificadores objetivo, schema es el esquema de la población (normalmente nms:recipient) y recCount es el número de elementos en la tabla.

La transición asociada al complemento tiene los mismos parámetros.

En esta página