Déduplication

La déduplication supprime les doublons dans le ou les résultats des activités entrantes. La déduplication peut être effectuée en fonction de l'adresse email, du numéro de téléphone ou d'un autre champ.

L'activité Déduplication est utilisée pour supprimer des lignes dupliquées d'un jeu de données. Par exemple, les enregistrements ci-dessous peuvent être considérés comme des duplicatas, car ils ont la même adresse email et le même téléphone portable et/ou de domicile.

Date de la dernière modification Prénom Nom Email Téléphone mobile Phone
02/03/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888
05/19/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
07/22/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

L'activité Déduplication peut conserver une ligne entière comme enregistrement unique après l'identification des duplicatas. Par exemple, dans le cas pratique ci-dessus, si l’activité est configurée pour ne conserver que l’enregistrement avec la Date la plus ancienne, le résultat est le suivant :

Date Prénom Nom Email Téléphone mobile Phone
02/03/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888

L'enregistrement principal sélectionné transfère les données sans fusionner les données de champ avec d'autres données pertinentes dans les lignes de duplicatas.

Complémentaire :

Date Prénom Nom Email Téléphone mobile Phone
05/19/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
07/22/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

Bonnes pratiques

Lors d'une déduplication, les flux entrants sont traités séparément. Si par exemple, un destinataire 'A' est présent dans le résultat de la requête 1 et également dans le résultat de la requête 2, il ne sera pas dédupliqué.

Ce cas de figure doit s'aborder de cette manière :

  • Créer une activité Union pour unifier chaque flux entrant.
  • Créer une activité Déduplication positionnée après l'activité Union.

Configuration

Pour paramétrer une déduplication, vous devez renseigner son libellé, la méthode et les critères de déduplication et les options relatives au résultat.

  1. Cliquez sur le lien Editer la configuration… pour définir le mode de déduplication.

  2. Sélectionnez le type de cible pour cette activité (par défaut, la déduplication est liée aux destinataires) et le critère à utiliser, c'est-à-dire le champ pour lequel des valeurs identiques permettent d'identifier les duplicatas.

    REMARQUE

    Si vous utilisez des données externes comme entrée, provenant par exemple d’un fichier externe, veillez à sélectionner l’option Schéma temporaire.

    L'option Autre permet, à l'étape suivante, de sélectionner le ou les critères à utiliser :

  3. L'option Autre permet, à l'étape suivante, de sélectionner le ou les critères à utiliser en cas de valeurs identiques :

  4. Sélectionnez dans la liste déroulante la méthode de déduplication à utiliser et indiquez le nombre de doublons à conserver.

    Les méthodes disponibles sont les suivantes :

    • Choisir pour moi : sélectionne au hasard parmi les doublons l'enregistrement à conserver.

    • Par ordonnancement de valeurs : permet de définir un ordre de priorité des valeurs pour un ou plusieurs champs. Pour définir les valeurs, sélectionnez un champ ou créez une expression puis ajoutez la ou les valeurs dans le tableau correspondant. Cliquez sur le bouton Ajouter situé au-dessus de la liste des valeurs pour définir un nouveau champ.

    • Valeur non vide : permet de conserver en priorité les enregistrements pour lesquels la valeur de l'expression sélectionnée n'est pas vide.

    • A partir d'une expression : permet de conserver les enregistrements dont la valeur de l'expression renseignée est la plus petite (ou la plus grande).

    REMARQUE

    La fonctionnalité Fusion, accessible via le lien Paramètres avancés, vous permet de configurer un ensemble de règles afin de fusionner un champ ou un groupe de champs en un seul enregistrement de données obtenu. Pour plus d’informations à ce sujet, voir Fusion de champs en un seul enregistrement.

  5. Cliquez sur Terminer pour valider la méthode de déduplication sélectionnée.

    La section centrale de la fenêtre résume le paramétrage défini.

    Dans la section inférieure de la fenêtre d'édition de l'activité, vous pouvez modifier le libellé de la transition sortante de l'objet graphique et saisir un code segment qui sera associé au résultat de l'activité. Ce code pourra être utilisé ultérieurement comme critère de ciblage.

  6. Cochez l'option Générer le complémentaire si vous souhaitez exploiter la population restante. Le complémentaire est constitué de tous les doublons. Une transition supplémentaire sera alors ajoutée à l'activité, comme suit :

Exemple : identifier des doublons avant une diffusion

Dans l'exemple suivant, la déduplication porte sur l'union de trois requêtes.

Le workflow a pour but de définir la cible d'une diffusion en excluant les doublons afin d'éviter d'envoyer cette dernière plusieurs fois à un même destinataire.

Les doublons identifiés seront également intégrés à une liste constituée exclusivement de doublons qui pourra être réutilisée en cas de besoin ultérieur.

  1. Placez et reliez les différentes activités nécessaires au déroulement du workflow comme indiqué dans l'illustration ci-dessus.

    L'activité d'union est ici utilisée pour « unifier » les trois requêtes en une seule transition. Ainsi, la déduplication ne s'opérera pas individuellement sur chaque requête mais sur l'ensemble. Pour plus d’informations, consultez la section Meilleures pratiques.

  2. Ouvrez l'activité de déduplication puis cliquez sur le lien Editer la configuration… afin de pouvoir définir le mode de déduplication.

  3. Dans la fenêtre qui s'ouvre, sélectionnez Schéma de la base.

  4. Sélectionnez Destinataires en tant que dimensions de ciblage et de filtrage.

  5. Sélectionnez le champ d'identification des doublons Email afin de n'envoyer la diffusion qu'une seule fois par adresse mail, puis cliquez sur Suivant.

    Si vous souhaitez baser l'identification des doublons sur un champ précis, sélectionnez Autre afin d'accéder à la liste des champs disponibles.

  6. Choisissez de ne conserver qu'une seule entrée lorsque la même adresse e-mail est identifiée pour plusieurs destinataires.

  7. Sélectionnez le mode de déduplication Choisir pour moi afin que l'enregistrement conservé en cas de doublons identifiés soit choisi au hasard, puis cliquez sur Terminer.

Lors de l'exécution du workflow, les destinataires identifiés comme étant des doublons seront exclus du résultat (et donc de la diffusion) et ajoutés à la liste des doublons. Cette liste pourra être réutilisée afin de ne pas avoir à identifier de nouveau les doublons.

Fusion de champs en un seul enregistrement de données

La fonctionnalité Fusion permet de configurer un ensemble de règles pour que la déduplication définisse un champ ou un groupe de champs à fusionner dans un seul enregistrement de données obtenu.

Par exemple, avec un ensemble d’enregistrements dupliqués, vous pouvez choisir de conserver le numéro de téléphone le plus ancien ou le nom le plus récent.

Un cas pratique exploitant cette fonctionnalité est disponible dans cette section.

Pour ce faire, procédez comme suit :

  1. Dans l’étape de sélection de la méthode de déduplication, cliquez sur le lien Paramètres avancés.

  2. Sélectionnez l'option Fusionner les enregistrements pour activer la fonctionnalité.

    Si vous souhaitez regrouper plusieurs champs de données dans chaque condition de fusion, activez l'option Utiliser plusieurs critères de fusion des enregistrements.

  3. Après avoir activé la fonctionnalité, un onglet Fusion est ajouté à l'activité Déduplication. Il vous permet de définir des groupes de champs à fusionner et leurs règles associées.

    Pour plus d'informations à ce sujet, reportez-vous au cas pratique disponible dans cette section.

Paramètres d'entrée

  • tableName
  • schema

Chacun des événements entrants doit spécifier une cible définie par ces paramètres.

Paramètres de sortie

  • tableName
  • schema
  • recCount

Ce triplet de valeurs identifie la cible résultant de la déduplication. tableName est le nom de la table qui mémorise les identifiants de la cible, schema est le schéma de la population (habituellement nms:recipient) et recCount est le nombre d'éléments dans la table.

La transition associée au complémentaire possède les mêmes paramètres.

Sur cette page