Créer un flux de données à l’aide d’une source de base de données dans l’interface utilisateur
Un flux de données est une tâche planifiée qui récupère et ingère des données d’une source vers un jeu de données dans Adobe Experience Platform. Ce tutoriel décrit les étapes à suivre pour créer un flux de données pour une source de base de données à l’aide de l’interface utilisateur d’Experience Platform.
-
Pour créer un flux de données, vous devez déjà disposer d’un compte authentifié avec une source de base de données. Vous trouverez une liste de tutoriels sur la création de différents comptes de sources de base de données dans l’interface utilisateur dans la présentation des sources.
-
Pour qu’Experience Platform ingère des données, les fuseaux horaires de toutes les sources de lots basées sur un tableau doivent être configurés au format UTC. Le seul horodatage pris en charge pour la Snowflake source est TIMESTAMP_NTZ avec l’heure UTC.
Prise en main
Ce tutoriel nécessite une compréhension du fonctionnement des composants suivants d’Adobe Experience Platform :
-
Sources : Experience Platform permet d’ingérer des données provenant de diverses sources tout en vous offrant la possibilité de structurer, d’étiqueter et d’améliorer les données entrantes à l’aide des services Experience Platform.
-
Experience Data Model (XDM) Système : Cadre normalisé selon lequel Experience Platform organise les données d’expérience client.
- Principes de base de la composition des schémas : découvrez les blocs de création de base des schémas XDM, y compris les principes clés et les bonnes pratiques en matière de composition de schémas.
- Tutoriel sur l’éditeur de schémas : découvrez comment créer des schémas personnalisés à l’aide de l’interface utilisateur de l’éditeur de schémas.
-
Real-Time Customer Profile : fournit un profil de consommateur unifié en temps réel, basé sur des données agrégées provenant de plusieurs sources.
-
Data Prep : permet aux ingénieurs de données de mapper, transformer et valider des données vers et à partir du modèle de données d’expérience (XDM).
Ajouter des données
Une fois votre compte de source de base de données créé, l’étape Add data s’affiche, vous permettant d’explorer la hiérarchie des tables de ce compte.
- La moitié gauche de l’interface est un navigateur, qui affiche une liste des tableaux de données contenus dans votre compte. L’interface comprend également une option de recherche qui vous permet d’identifier rapidement les données sources que vous avez l’intention d’utiliser.
- La moitié droite de l’interface est un panneau de prévisualisation, qui vous permet de prévisualiser jusqu’à 100 lignes de données.
Une fois que vous avez trouvé les données sources, sélectionnez la table, puis sélectionnez Next.
Fournir des détails sur le flux de données
La page Dataflow detail vous permet de choisir si vous souhaitez utiliser un jeu de données existant ou un nouveau jeu de données. Au cours de ce processus, vous pouvez également configurer des paramètres pour Profile dataset, Error diagnostics, Partial ingestion et Alerts.
Utiliser un jeu de données existant
Pour ingérer des données dans un jeu de données existant, sélectionnez Existing dataset. Vous pouvez soit récupérer un jeu de données existant à l’aide de l’option Advanced search , soit faire défiler la liste des jeux de données existants dans le menu déroulant. Une fois que vous avez sélectionné un jeu de données, indiquez un nom et une description pour votre flux de données.
Utiliser un nouveau jeu de données
Pour effectuer une ingestion dans un nouveau jeu de données, sélectionnez New dataset, puis fournissez un nom de jeu de données de sortie et une description facultative. Sélectionnez ensuite un schéma à mapper à l’aide de l’option Advanced search ou en faisant défiler la liste des schémas existants dans le menu déroulant. Une fois que vous avez sélectionné un schéma, saisissez un nom et une description pour votre flux de données.
Activer Profile et les diagnostics d’erreur
Sélectionnez ensuite le bouton (bascule) Profile dataset pour activer votre jeu de données pour la Profile. Cela vous permet de créer une vue holistique des attributs et des comportements d’une entité. Les données issues de tous les jeux de données activés par le Profile seront incluses dans Profile et les modifications sont appliquées lorsque vous enregistrez votre flux de données.
Error diagnostics permet la génération de messages d’erreur détaillés pour tout enregistrement erroné survenant dans votre flux de données, tandis que Partial ingestion vous permet d’ingérer des données contenant des erreurs, jusqu’à un certain seuil que vous définissez manuellement. Pour plus d’informations, consultez la présentation de l’ingestion par lots partiels.
Activer les alertes
Vous pouvez activer les alertes pour recevoir des notifications sur le statut de votre flux de données. Sélectionnez une alerte dans la liste et abonnez-vous à des notifications concernant le statut de votre flux de données. Pour plus d’informations sur les alertes, consultez le guide sur l’abonnement aux alertes des sources dans l’interface utilisateur.
Lorsque vous avez terminé de renseigner votre flux de données, sélectionnez Next.
Mappage des champs de données à un schéma XDM
L’étape Mapping s’affiche, vous fournissant une interface pour mapper les champs source de votre schéma source à leurs champs XDM cibles appropriés dans le schéma cible.
Experience Platform fournit des recommandations intelligentes pour les champs mappés automatiquement en fonction du schéma ou du jeu de données cible que vous avez sélectionné. Vous pouvez ajuster manuellement les règles de mappage en fonction de vos cas d’utilisation. Selon vos besoins, vous pouvez choisir de mapper directement des champs ou d’utiliser des fonctions de préparation de données pour transformer les données sources afin d’obtenir des valeurs informatisées ou calculées. Pour obtenir des instructions complètes sur l’utilisation de l’interface du mappeur et des champs calculés, consultez le Guide de l’interface utilisateur de la préparation des données .
Les colonnes de contrôle telles que _change_request_type, utilisées pour la capture de données de modification, sont lues lors de l’ingestion, mais ne sont pas stockées dans le schéma cible.
Les schémas relationnels prennent également en charge les relations entre les jeux de données à l’aide de mappages de clés primaires et étrangères.
Pour plus d'informations, consultez la présentation de Data Mirror ainsi que la référence technique des schémas relationnels.
Une fois les données sources mappées, sélectionnez Next.
Planifier des exécutions d’ingestion
L’étape Scheduling s’affiche, vous permettant de configurer un planning d’ingestion pour ingérer automatiquement les données source sélectionnées à l’aide des mappages configurés. Par défaut, la planification est définie sur Once. Pour ajuster la fréquence d’ingestion, sélectionnez Frequency puis une option dans le menu déroulant.
Si vous définissez la fréquence d’ingestion sur Minute, Hour, Day ou Week, vous devez définir un intervalle pour établir un intervalle défini entre chaque ingestion. Par exemple, une fréquence d’ingestion définie sur Day et un intervalle défini sur 15 signifie que votre flux de données est planifié pour ingérer des données tous les 15 jours.
Au cours de cette étape, vous pouvez également activer le renvoi et définir une colonne pour l’ingestion incrémentielle des données. Le renvoi est utilisé pour ingérer des données historiques, tandis que la colonne que vous définissez pour l’ingestion incrémentielle permet de différencier les nouvelles données des données existantes.
Pour plus d’informations sur les configurations de planification, consultez le tableau ci-dessous.
Configurez la fréquence pour indiquer la fréquence d’exécution du flux de données. Vous pouvez définir la fréquence sur :
- Une fois : définissez votre fréquence sur
oncepour créer une ingestion unique. Les configurations d’intervalle et de renvoi ne sont pas disponibles lors de la création d’un flux de données d’ingestion unique. Par défaut, la fréquence de planification est définie sur une seule fois. - Minute : définissez la fréquence sur
minutepour planifier le flux de données afin d’ingérer les données par minute. - Heure : définissez la fréquence sur
hourpour planifier l’ingestion des données par flux et par heure. - Jour : définissez la fréquence sur
daypour planifier l’ingestion de données par jour dans le flux de données. - Semaine : définissez la fréquence sur
weekpour planifier l’ingestion de données par semaine dans le flux de données. Pour plus d’informations, consultez la section sur [Présentation du planning d’ingestion hebdomadaire] (#weekly).
Une fois que vous avez sélectionné une fréquence, vous pouvez configurer le paramètre d’intervalle afin d’établir la période entre chaque ingestion. Par exemple, si vous définissez la fréquence sur jour et configurez l’intervalle sur 15, votre flux de données s’exécutera tous les 15 jours. Vous ne pouvez pas définir l’intervalle sur zéro. La valeur d’intervalle minimale acceptée pour chaque fréquence est la suivante :
- Une fois : s.o.
- Minute : 15
- Heure : 1
- Jour : 1
- Semaine : 1
Comprendre le planning d’ingestion hebdomadaire weekly
Lorsque vous choisissez de définir votre flux de données pour qu’il s’exécute selon un planning hebdomadaire, le flux de données s’exécute en fonction de l’un des scénarios suivants :
- Si votre source de données a été créée mais qu’aucune donnée n’a encore été ingérée, le premier flux de données hebdomadaire s’exécute 7 jours après la date de création de la source. Cet intervalle de 7 jours commence toujours à partir de la création de la source, quelle que soit la date à laquelle vous avez configuré le planning. Après l’exécution initiale, le flux de données continue à s’exécuter toutes les semaines selon le planning configuré.
- Si les données de votre source ont déjà été ingérées et que vous planifiez une nouvelle ingestion hebdomadaire, le flux de données suivant s’exécutera 7 jours après la dernière ingestion réussie.
Vérifier le flux de données
L’étape Review s’affiche, vous permettant de vérifier votre nouveau flux de données avant sa création. Les détails sont regroupés dans les catégories suivantes :
- Connection : affiche le type de source, le chemin d’accès correspondant au fichier source choisi et le nombre de colonnes au sein de ce fichier source.
- Assign dataset & map fields : affiche le jeu de données dans lequel les données sources seront ingérées, ainsi que le schéma associé. Si vous utilisez un schéma relationnel, vérifiez que les champs obligatoires, tels que la clé primaire et l’identifiant de version, sont correctement mappés. Assurez-vous également que toutes les colonnes de contrôle de capture de données de modification sont correctement configurées. Les jeux de données utilisant des schémas relationnels prennent en charge plusieurs modèles de données et permettent de modifier les workflows de capture de données.
- Scheduling : affiche la période active, la fréquence et l’intervalle du planning d’ingestion.
Une fois que vous avez révisé votre flux de données, sélectionnez Finish et patientez quelques instants le temps que le flux de données soit créé.
Surveiller votre flux de données
Une fois votre flux de données créé, vous pouvez surveiller les données ingérées et afficher les informations relatives au taux d’ingestion, aux succès et aux erreurs. Pour plus d’informations sur la surveillance des flux de données, consultez le tutoriel sur la surveillance des comptes et des flux de données dans l’interface utilisateur.
Supprimer le flux de données
Vous pouvez supprimer les flux de données qui ne sont plus nécessaires ou qui ont été créés de manière incorrecte à l’aide de la fonction Delete disponible dans l’espace de travail Dataflows. Pour plus d’informations sur la suppression des flux de données, consultez le tutoriel sur la suppression de flux de données dans l’interface utilisateur.
Étapes suivantes
Ce tutoriel vous a permis de créer un flux de données pour importer des données de la source de votre base de données vers Experience Platform. Les données entrantes peuvent désormais être utilisées par les services Experience Platform en aval tels que Real-Time Customer Profile et Data Science Workspace. Consultez les documents suivants pour plus d’informations :