Compréhension de la construction des jeux de données

Un jeu de données d’Adobe contient les données qui ont été chargées et traitées par le serveur de l’outil de données.

Les étapes impliquées dans le chargement et le traitement des données par le serveur de l'outil de données (InsightServer64.exe) constituent le processus de construction du jeu de données.

REMARQUE

Un serveur d’outils de données qui traite et diffuse les données d’un jeu de données d’Adobe est appelé unité de traitement de données ou unité de traitement de données (DPU). Il est parfois appelé serveur de traitement ou serveur de requête. Les outils de données et les clients Report interagissent directement avec les unités de traitement de données.

Lors de la construction d’un jeu de données, le serveur de l’outil de données lit les données source provenant de sources de journal, applique des transformations à des champs de données spécifiques et définit des dimensions étendues à créer à partir des champs transformés. Le processus de construction se déroule en deux phases : Traitement du journal et Transformation. Une fois le jeu de données créé, vous pouvez utiliser les dimensions étendues du jeu de données pour créer des mesures et des dimensions dérivées à des fins d'analyse spécifiques.

La construction de jeux de données est comme un processus de fabrication. Vous sélectionnez les données (les matières premières) à utiliser pour créer le jeu de données, et vous définissez les transformations de données (les étapes de processus) qui manipulent les informations disponibles dans les données pour créer des dimensions étendues (les produits manufacturés).

Les journaux sont filtrés et les champs de données à transmettre à la phase de transformation sont identifiés. À la fin de la phase de traitement du journal, les données sont regroupées par ID de suivi (c'est-à-dire que toutes les entrées de journal ayant le même ID de suivi sont regroupées) et triées dans le temps. Pendant la phase de traitement du journal, vous ne pouvez pas accéder aux données traitées à utiliser pour l’analyse.

Spécification des sources de journal

Les sources de journal sont des fichiers qui contiennent les données à utiliser pour créer un jeu de données. Les données disponibles dans les sources du journal sont appelées données de événement, car chaque enregistrement de données représente un enregistrement de transaction ou une instance unique d'un événement. En outre, chaque enregistrement, ou entrée de journal, contient une valeur appelée ID de suivi.

REMARQUE

Lors de la sélection des sources de journal, assurez-vous que chaque entrée de journal contient un ID de suivi pour l'entité qui doit représenter le niveau le plus élevé auquel vos données doivent être regroupées. Par exemple, si vous travaillez sur les données collectées à partir du trafic du site Web, il est probable que vous choisissiez visiteur comme entité. Chaque visiteur possède un identifiant de suivi unique et toutes les données relatives à un visiteur de site particulier peuvent être regroupées. Pour obtenir de l'aide, contactez l'Adobe.

Les données de événement de sources de journal sont collectées en temps réel par Sensors ou extraites de sources de données archivées par Insight Server. Les données de événement collectées par les capteurs provenant des serveurs HTTP et d’applications sont transmises aux serveurs Insight, qui convertissent les données en fichiers journaux fortement compressés ( .vsl). Les données de événement qui résident dans un fichier plat, un fichier XML ou une source de données ODBC sont lues par Insight Server, qui fournit des décodeurs que vous définissez pour extraire un ensemble commun de champs de journal de ces différents formats.

Définir des transformations

Une transformation est un ensemble d'instructions que vous pouvez définir pour extraire ou manipuler des informations dans les données du événement. Chaque transformation que vous définissez est appliquée à chaque enregistrement de données de événement (entrée de journal) afin de mettre à jour les champs de journal existants ou de produire de nouveaux champs. Les résultats des transformations sont utilisés avec les conditions d'entrée de journal pour évaluer les entrées de journal qui sont filtrées hors du jeu de données pendant le traitement du journal.

Tous les types de transformations ne peuvent pas être utilisés pendant la phase de traitement du journal du processus de construction des ensembles de données.

Filtrage des journaux

Le jeu de données contient plusieurs paramètres utilisés pour filtrer les données sortant des transformations. Le filtrage permet de spécifier les entrées de journal utilisées dans les étapes de traitement suivantes. Par exemple, les filtres peuvent être définis par, période, état de la réponse du serveur ou adresse IP et informations de l'agent utilisateur. Log Entry Condition est un test de filtrage personnalisable. Le test recherche certaines conditions dans les champs de chaque entrée de journal pour déterminer si cette entrée doit continuer dans le processus de construction du jeu de données. Si une entrée de journal ne satisfait pas à la condition, elle est supprimée du processus de construction.

Identification des champs pour la transformation

Si un champ de données doit être transmis de la phase de traitement du journal à la phase de transformation pour un traitement ultérieur, vous devez l’identifier pendant le traitement du journal. Cette exigence s’applique, que le champ soit disponible à partir des sources du journal ou créé à partir de transformations de données appliquées aux données pendant le traitement du journal.

Au cours de la phase de transformation de la construction des ensembles de données, le traitement se produit sur les données groupées et ordonnées qui sont produites par le traitement du journal. Des transformations de données supplémentaires sont effectuées et des dimensions de données étendues sont créées pour être utilisées dans vos analyses. Au cours de la phase de transformation, vous pouvez accéder à un échantillon statistique des données qui s’agrandit à mesure que la phase de transformation approche de sa fin.

Définir des transformations

Vous pouvez définir les transformations à utiliser pendant la phase de transformation du processus de construction du jeu de données afin de faciliter la création des dimensions étendues. Chaque transformation est appliquée à chaque enregistrement de données de événement (entrée de journal) transmis par le traitement du journal.

Filtrage des journaux

Le Log Entry Condition peut être appliqué pendant la transformation pour rechercher des conditions spécifiques dans les champs de chaque entrée de journal provenant du traitement du journal. Si une entrée de journal ne satisfait pas à la condition, elle est supprimée du processus de construction.

Définition des dimensions étendues

Les dimensions étendues sont les produits finaux du processus de construction des ensembles de données. Elles représentent des relations entre les champs du journal dans les données. Vous les utilisez pour créer des visualisations, créer des mesures étendues ou effectuer des analyses afin de comprendre les opérations et les problèmes spécifiques à votre entreprise.

Sur cette page

Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now