Déduplication deduplication

Description description

L'activité Déduplication permet de supprimer les doublons dans le ou les résultats des activités entrantes.

Contexte d'utilisation context-of-use

L'activité Déduplication est généralement utilisée à la suite des activités de ciblage ou d'un import de fichier et avant les activités permettant de consommer les données ciblées.

Lors d'une déduplication, les transitions entrantes sont traitées séparément. Si par exemple, un profil « A » est présent dans le résultat de la requête 1 et également dans le résultat de la requête 2, il ne sera pas dédupliqué.

Il est ainsi conseillé de faire en sorte qu'une déduplication ne possède qu'une transition entrante. Pour cela, vous pouvez réunir vos différentes requêtes par des activités répondant aux besoins de votre ciblage telles qu'une union, une intersection, etc. Par exemple :

Rubriques connexes :

Configuration configuration

Pour paramétrer une déduplication, vous devez renseigner son libellé, la méthode et les critères de déduplication, ainsi que les options relatives au résultat.

  1. Placez une activité Déduplication dans votre workflow.

  2. Sélectionnez l’activité puis ouvrez-la à l’aide du bouton , disponible dans les actions rapides qui s’affichent.

  3. Sélectionnez le Type de ressource sur lequel doit être effectuée la déduplication :

    • Ressource de la base si la déduplication porte sur des données déjà existantes en base de données. Sélectionnez la Dimension de filtrage et la Dimension de ciblage en fonction des données que vous souhaitez dédupliquer. Par défaut, la déduplication porte sur les profils.
    • Ressource temporaire si la déduplication porte sur des données temporaires du workflow : sélectionnez l'Ensemble ciblé contenant les données à dédupliquer. Ce cas peut être rencontré à la suite d'un import de fichier ou si des données de la base ont été enrichies (par exemple avec un code segment).
  4. Sélectionnez le Nombre d'enregistrements uniques à conserver. La valeur par défaut de ce champs est 1. La valeur 0 permet de conserver tous les doublons.

    Par exemple, si des enregistrements A et B sont considérés comme des doublons d'un enregistrement Y, et un enregistrement C est considéré comme un doublon d'un enregistrement Z :

    • Si la valeur du champ est 1 : seuls les enregistrements Y et Z sont conservés.
    • Si la valeur du champ est 0 : tous les enregistrements sont conservés.
    • Si la valeur du champ est 2 : les enregistrements C et Z sont conservés et deux enregistrements parmi A, B et Y sont conservés, au hasard ou en fonction de la méthode de déduplication choisie par la suite.
  5. Définissez les critères d'Identification des doublons en ajoutant des conditions dans la liste prévue à cet effet. Indiquez les champs et/ou expressions pour lesquels des valeurs identiques permettent d'identifier les doublons : adresse email, nom, prénom etc. L'ordre des conditions permet d'indiquer lesquelles traiter en priorité.

  6. Sélectionnez dans la liste déroulante la Méthode de déduplication à utiliser :

    • Choisir pour moi  : sélectionne au hasard parmi les doublons l'enregistrement à conserver.

    • Par ordonnancement de valeurs  : permet de définir un ordre de priorité des valeurs pour un ou plusieurs champs. Pour définir les valeurs, sélectionnez un champ ou créez une expression puis ajoutez la ou les valeurs dans le tableau correspondant. Cliquez sur le bouton Ajouter situé au-dessus de la liste des valeurs pour définir un nouveau champ.

    • Valeur non vide  : permet de conserver en priorité les enregistrements pour lesquels la valeur de l'expression sélectionnée n'est pas vide.

    • A partir d'une expression  : permet de conserver les enregistrements dont la valeur de l'expression renseignée est la plus petite ou la plus grande.

  7. Si besoin, gérez les Transitions de l'activité afin d'accéder à des options avancées sur la population transmise en sortie.

  8. Validez le paramétrage de l'activité et enregistrez le workflow.

recommendation-more-help
3ef63344-7f3d-48f9-85ed-02bf569c4fff