En savoir plus sur le Data Workbench Annonce de fin de vie.
Les sources de journal sont des fichiers qui contiennent les données à utiliser pour créer un jeu de données.
Les données disponibles dans les sources de journal sont appelées données d’événement, car chaque enregistrement de données représente un enregistrement de transaction ou une instance unique d’un événement. Le serveur Data Workbench peut traiter les sources de journaux dérivées des données collectées par Sensors ou extraites d’autres sources de données.
Données collectées par Sensors: Données collectées par Sensors Les serveurs HTTP et d’applications sont transmis aux serveurs Data Workbench, qui convertissent les données en journaux fortement compressés ( .vsl). Voir Fichiers de Capteur.
Données extraites par le serveur Insight : Le serveur Data Workbench lit les données d’événement contenues dans des fichiers plats, des fichiers XML ou des bases de données conformes à la norme ODBC et utilise ses décodeurs pour extraire les éléments souhaités des données. Ces données d’événement ne doivent pas nécessairement résider dans la mémoire, mais les enregistrements qui contiennent les données doivent inclure un ID de suivi. Voir Fichiers journaux, Sources de journal XML, et Sources de données ODBC.
Pour ajouter une source de journal
Ouvrir Log Processing.cfg dans data workbench.
Clic droit Log Sources, puis cliquez sur Add New.
Sélectionnez l’une des options suivantes :
Les paramètres spécifiques utilisés pour définir un jeu de données varient en fonction du type de source de journal à utiliser dans le processus de configuration du jeu de données. Spécifiez les paramètres comme indiqué dans la section correspondant à la source de journal appropriée :
Après avoir défini votre source de journal (et apporté des modifications à d’autres paramètres) dans la variable Log Processing.cfg enregistrez le fichier localement et enregistrez-le dans votre profil de jeu de données sur le serveur Data Workbench.
Un serveur Data Workbench File Server Unit peut recevoir et stocker Sensor fichiers, fichiers journaux et fichiers XML et les diffusent au serveur Data Workbench ; Data Processing Units qui construisent le jeu de données. Voir Configuration d’une unité du serveur de fichiers Insight.
Vous pouvez ouvrir la configuration de n’importe quelle source de journal à partir d’une Transformation Dependency Map. Pour plus d’informations sur Transformation Dependency Map, voir Outils de configuration des jeux de données.
Données d’événement collectées par Sensors Les serveurs HTTP et d’applications sont transmis aux serveurs Data Workbench, qui convertissent les données en journaux fortement compressés ( .vsl). Le .vsl Le format de fichier est géré par le serveur data workbench et chaque fichier porte un nom au format :
YYYYMDD-SENSORID.VSL
où YYYYMMDD est la date du fichier, et SENSORID est le nom (attribué par votre organisation) qui indique lequel Sensor collecte et transmission des données au serveur Data Workbench.
Pour Sensor , les paramètres suivants sont disponibles :
Paramètre | Description |
---|---|
Chemins du journal | Les répertoires dans lesquels la variable .vsl sont stockés. L’emplacement par défaut est le répertoire Journaux . Un chemin relatif fait référence au répertoire d’installation du serveur Data Workbench. Vous pouvez utiliser des caractères génériques pour spécifier lesquels .vsl fichiers à traiter :
Par exemple, le chemin du journal Logs\*.vsl correspond à tout fichier du répertoire Journaux se terminant par .vsl. Chemin du journal Logs\*-SENSOR?.vsl fait correspondre des fichiers du répertoire Journaux avec n’importe quelle date (YYYMMDD) et un seul caractère après le CAPTEUR, comme dans SENSOR1. Si vous souhaitez rechercher tous les sous-répertoires du chemin spécifié, vous devez définir le paramètre Récursif sur true.
Remarque : Si les fichiers doivent être lus à partir d’un serveur Data Workbench Unité de serveur de fichiers, vous devez alors saisir les URI appropriés dans le paramètre Chemins du journal . Par exemple, la variable URI /Logs/*-*.vsl correspond à .vsl dans le répertoire Journaux. Voir Configuration d’une unité du serveur de fichiers Insight. |
Serveur de journal | Informations (adresse, nom, port, etc.) nécessaires à la connexion à un serveur de fichiers. Si le paramètre du serveur de journal contient une entrée, la variable Chemins du journal sont interprétées comme des URI. Sinon, elles sont interprétées comme des chemins locaux. Voir Configuration d’une unité du serveur de fichiers Insight. |
Identifiant de source de journal | La valeur de ce paramètre peut être n’importe quelle chaîne. Si une valeur est spécifiée, ce paramètre permet de différencier les entrées de journal de différentes sources de journal pour l’identification de la source ou le traitement ciblé. Le champ x-log-source-id est renseigné avec une valeur identifiant la source du journal pour chaque entrée de journal. Par exemple, si vous souhaitez identifier des entrées de journal à partir d’un Sensor nommé VSensor01, vous pouvez saisir de VSensor01, et cette chaîne serait transmise au champ x-log-source-id pour chaque entrée de journal provenant de cette source. Pour plus d’informations sur le champ x-log-source-id, voir Champs d’enregistrement des données d’événement. |
Récursif | True ou false. Si la valeur est définie sur true, tous les sous-répertoires de chaque chemin spécifié dans Chemins du journal sont recherchés des fichiers correspondant au nom de fichier ou au modèle de caractère générique spécifié. La valeur par défaut est false. |
Utiliser les heures de début/fin | True ou false. Si la valeur est définie sur true et que l’heure de début ou l’heure de fin est spécifiée, tous les fichiers de cette source de journal doivent avoir des noms de fichier commençant par des dates au format ISO (YYYMMDD). Chaque fichier contient des données pour un jour GMT (par exemple, la période commençant à 0000 GMT un jour et se terminant à 0000 GMT le jour suivant). Si les fichiers de sources de journaux contiennent des données qui ne correspondent pas à un jour GMT, ce paramètre doit être défini sur false pour éviter des résultats incorrects.
Remarque : Par défaut, .vsl fichiers contenant des données collectées par Sensor répondent automatiquement aux exigences d’attribution de noms et de période décrites ci-dessus. Si vous définissez ce paramètre sur true, le serveur Data Workbench traite toujours les données à partir de fichiers dont les noms incluent des dates ISO comprises entre l’heure de début et l’heure de fin spécifiées. Si vous définissez ce paramètre sur false, le serveur Data Workbench lit tous les .vsl lors du traitement des journaux, afin de déterminer les fichiers qui contiennent des données comprises entre l’heure de début et l’heure de fin. Pour plus d’informations sur les paramètres Heure de début et Heure de fin, voir Filtres de données. |
N’utilisez pas les paramètres de configuration pour Sensor sources de données pour déterminer quelles entrées de journal dans un fichier journal doivent être incluses dans un jeu de données. Configurez plutôt la source de données pour qu’elle pointe vers tous les fichiers journaux d’un répertoire. Utilisez ensuite les paramètres Heure de début et Heure de fin de Log Processing.cfg pour déterminer les entrées de journal à utiliser pour créer le jeu de données. Voir Filtres de données.
Le fichier contenant les données d’événement doit répondre aux exigences suivantes :
Chaque enregistrement de données d’événement dans le fichier doit être représenté par une ligne.
Les champs d’un enregistrement doivent être séparés, qu’ils soient vides ou non, par un délimiteur ASCII. Le serveur Data Workbench ne nécessite pas l’utilisation d’un délimiteur spécifique. Vous pouvez utiliser n’importe quel caractère qui n’est pas un caractère de fin de ligne et n’apparaît nulle part dans les données d’événement elles-mêmes.
Chaque enregistrement du fichier doit contenir :
Pour spécifier les heures de début et de fin du traitement des données, chaque nom de fichier doit être au format suivant :
where YYYYMDD est le jour Greenwich Mean Time (GMT) de toutes les données du fichier, et SOURCE est une variable qui identifie la source des données contenues dans le fichier.
Veuillez contacter les services de conseil d’Adobe pour une révision des fichiers journaux que vous prévoyez d’incorporer dans le jeu de données.
Pour les sources de journal des fichiers journaux, les paramètres du tableau suivant sont disponibles.
Le traitement des sources de journaux de fichiers journaux nécessite des paramètres supplémentaires définis dans une Log Processing Dataset Include qui contient un sous-ensemble des paramètres inclus dans un Log Processing.cfg ainsi que des paramètres spéciaux pour définir les décodeurs permettant d’extraire des données du fichier journal. Pour plus d’informations sur la définition de décodeurs pour les sources de journaux de fichiers journaux, voir Groupes de décodeur de fichier texte.
Paramètre | Description |
---|---|
Nom | L’identifiant de la source du fichier journal. |
Chemins du journal | Les répertoires dans lesquels les fichiers journaux sont stockés. L’emplacement par défaut est le répertoire Journaux . Un chemin relatif fait référence au répertoire d’installation du serveur Data Workbench. Vous pouvez utiliser des caractères génériques pour spécifier les fichiers journaux à traiter :
Par exemple, le chemin du journal Logs\*.log correspond à tout fichier du répertoire Journaux se terminant par .log. Si vous souhaitez rechercher tous les sous-répertoires du chemin spécifié, vous devez définir le paramètre Récursif sur true. Si les fichiers doivent être lus à partir d’un serveur Data Workbench Unité de serveur de fichiers, vous devez alors saisir les URI appropriés dans le paramètre Chemins du journal . Par exemple, la variable URI/Logs/*.log correspond à .log dans le répertoire Journaux. Voir Configuration d’une unité du serveur de fichiers Insight. |
Serveur de journal | Informations (adresse, nom, port, etc.) nécessaires à la connexion à un serveur de fichiers. Si le paramètre du serveur de journal contient une entrée, la variable Chemins du journal sont interprétées comme des URI. Sinon, elles sont interprétées comme des chemins locaux. Voir Configuration d’une unité du serveur de fichiers Insight. |
Compressé | True ou false. Cette valeur doit être définie sur true si les fichiers journaux à lire par le serveur Data Workbench sont des fichiers gzip compressés. |
Groupe de décodeur | Nom du groupe de décodeur de fichier texte à appliquer à la source du journal du fichier journal. Ce nom doit correspondre exactement au nom du groupe de décodeur de fichier texte correspondant spécifié dans la variable Inclure le jeu de données de traitement du journal fichier . Voir Groupes de décodeur de fichier texte. |
Identifiant de source de journal | La valeur de ce paramètre peut être n’importe quelle chaîne. Si une valeur est spécifiée, ce paramètre permet de différencier les entrées de journal de différentes sources de journal pour l’identification de la source ou le traitement ciblé. Le champ x-log-source-id est renseigné avec une valeur identifiant la source du journal pour chaque entrée de journal. Par exemple, si vous souhaitez identifier les entrées de journal à partir d’une source de fichier journal nommée LogFile01, vous pouvez saisir from LogFile01, et cette chaîne serait transmise au champ x-log-source-id pour chaque entrée de journal provenant de cette source. Pour plus d’informations sur le champ x-log-source-id, voir Champs d’enregistrement des données d’événement. |
Modèle de masque | Expression régulière avec un seul sous-modèle de capture qui extrait un nom cohérent utilisé pour identifier la source d’une série de fichiers journaux. Seul le nom de fichier est pris en compte. Le chemin et l’extension ne sont pas pris en compte pour la correspondance de l’expression régulière. Si vous n’indiquez pas de modèle de masque, alors un masque est généré automatiquement. Pour les fichiers Logs\010105server1.log et Logs\010105server2.log, la variable modèle de masque serait Voir Expressions régulières. |
Récursif | True ou false. Si ce paramètre est défini sur true, tous les sous-répertoires de chaque chemin spécifié dans Chemins du journal sont recherchés des fichiers correspondant au nom de fichier ou au modèle de caractère générique spécifié. La valeur par défaut est false. |
Rejeter le fichier | Chemin d’accès et nom de fichier du fichier contenant les entrées de journal qui ne répondent pas aux conditions du décodeur. |
Utiliser les heures de début/fin | True ou false. Si ce paramètre est défini sur true et que l’heure de début ou l’heure de fin est spécifiée, tous les fichiers de cette source de journal doivent avoir des noms de fichier commençant par des dates au format ISO (YYYMMDD). Chaque fichier contient des données pour un jour GMT (par exemple, la période commençant à 0000 GMT un jour et se terminant à 0000 GMT le jour suivant). Si les noms de fichiers des sources de journaux ne commencent pas par des dates ISO ou si les fichiers contiennent des données qui ne correspondent pas à un jour GMT, ce paramètre doit être défini sur false pour éviter des résultats incorrects.
Remarque : Si les exigences d’attribution de noms et de période décrites ci-dessus sont respectées pour les fichiers journaux et que vous définissez ce paramètre sur true, le groupe de décodeur de fichier texte spécifié limite les fichiers lus à ceux dont les noms comportent des dates ISO comprises entre l’heure de début et l’heure de fin spécifiées. Si vous définissez ce paramètre sur false, le serveur Data Workbench lit tous les fichiers journaux pendant le traitement des journaux pour déterminer les fichiers qui contiennent des données dans les plages Heure de début et Heure de fin. Pour plus d’informations sur les paramètres Heure de début et Heure de fin, voir Filtres de données. |
Dans cet exemple, le jeu de données est construit à partir de deux types de sources de journal.
La source de journal 0 spécifie les fichiers journaux générés à partir des données d’événement capturées par Sensor. Cette source de données pointe vers un répertoire appelé Logs et vers tous les fichiers de ce répertoire comportant une .vsl extension de nom de fichier.
La source de journal 1 pointe vers tous les fichiers du répertoire Journaux avec un .txt extension de nom de fichier. Le groupe de décodeur pour cette source de journal est appelé "Journaux de texte".
Vous ne devez pas supprimer ni déplacer les fichiers journaux une fois les sources de données d’un jeu de données définies. Seuls les fichiers journaux nouvellement créés doivent être ajoutés au répertoire pour les sources de données.
Le fichier contenant les données d’événement doit répondre aux exigences suivantes :
Les données d’événement doivent être incluses dans un fichier XML correctement formaté avec les relations parent-enfant appropriées.
Un groupe de décodeur unique doit exister pour chaque format de fichier XML. Pour plus d’informations sur la création d’un groupe de décodeurs, voir Groupes de décodeur XML.
Chaque enregistrement de visiteur dans le fichier doit contenir :
Pour spécifier les heures de début et de fin du traitement des données, chaque nom de fichier doit se présenter sous la forme
YYYYMMDD-SOURCE.log
where YYYYMDD est le jour Greenwich Mean Time (GMT) de toutes les données du fichier, et SOURCE est une variable qui identifie la source des données contenues dans le fichier.
Pour un exemple de fichier XML qui répond à ces exigences, voir Groupes de décodeur XML.
Veuillez contacter les services de conseil d’Adobe pour une révision des fichiers journaux XML que vous prévoyez d’incorporer dans le jeu de données.
Pour les sources de logs XML, les paramètres du tableau suivant sont disponibles.
Le traitement des sources de journaux XML nécessite des paramètres supplémentaires définis dans une Log Processing Dataset Include qui contient un sous-ensemble des paramètres inclus dans un Log Processing.cfg ainsi que des paramètres spéciaux pour définir les décodeurs permettant d'extraire des données du fichier XML. Pour plus d’informations sur la définition de décodeurs pour les sources de journaux XML, voir Groupes de décodeur XML.
Champ | Description |
---|---|
Nom | L’identifiant de la source du journal XML. |
Chemins du journal | Les répertoires dans lesquels les sources du journal XML sont stockées. L’emplacement par défaut est le répertoire Journaux . Un chemin relatif fait référence au répertoire d’installation du serveur Data Workbench. Vous pouvez utiliser des caractères génériques pour spécifier les sources de journal XML à traiter :
Par exemple, le chemin du journal Logs\*.xml correspond à tout fichier du répertoire Journaux se terminant par .xml. Si vous souhaitez rechercher tous les sous-répertoires du chemin spécifié, vous devez définir la variable Récursif sur true.
Remarque : Si les fichiers doivent être lus à partir d’un serveur Data Workbench Unité de serveur de fichiers, vous devez saisir le ou les URI appropriés dans la variable Chemins du journal champ . Par exemple, la variable URI/Logs/*.xml correspond à .xml dans le répertoire Journaux. Voir Configuration d’une unité du serveur de fichiers Insight. |
Serveur de journal | Informations (adresse, nom, port, etc.) nécessaires à la connexion à un serveur de fichiers. Si une entrée se trouve dans la variable Serveur de journal , le champ Chemins du journal sont interprétées comme des URI. Sinon, elles sont interprétées comme des chemins locaux. Voir Configuration d’une unité du serveur de fichiers Insight. |
Compressé | True ou false. Cette valeur doit être définie sur true si les sources de journaux XML à lire par le serveur Data Workbench sont des fichiers gzip compressés. |
Groupe de décodeur | Nom du groupe de décodeurs XML à appliquer à la source du journal XML. Ce nom doit correspondre exactement au nom du groupe de décodeur XML correspondant spécifié dans la variable Inclure le jeu de données de traitement du journal fichier . Voir Groupes de décodeur XML. |
Identifiant de source de journal | La valeur de ce champ peut être n’importe quelle chaîne. Si une valeur est spécifiée, ce champ vous permet de différencier les entrées de journal de différentes sources de journal pour l’identification de la source ou le traitement ciblé. Le champ x-log-source-id est renseigné avec une valeur identifiant la source du journal pour chaque entrée de journal. Par exemple, si vous souhaitez identifier les entrées de journal à partir d’une source de fichier journal nommée XMLFile01, vous pouvez saisir de XMLFile01, et cette chaîne serait transmise au champ x-log-source-id pour chaque entrée de journal provenant de cette source. Pour plus d’informations sur le champ x-log-source-id, voir Champs d’enregistrement des données d’événement. |
Modèle de masque | Expression régulière avec un seul sous-modèle de capture qui extrait un nom cohérent utilisé pour identifier la source d’une série de fichiers journaux. Seul le nom de fichier est pris en compte. Le chemin et l’extension ne sont pas pris en compte pour la correspondance de l’expression régulière. Si vous n’indiquez pas de modèle de masque, alors un masque est généré automatiquement. Pour les fichiers Logs\010105server1.xml et Logs\010105server2.xml, le modèle de masque serait Voir Expressions régulières. |
Récursif | True ou false. Si ce paramètre est défini sur true, tous les sous-répertoires de chaque chemin spécifié dans Chemins du journal sont recherchés des fichiers correspondant au nom de fichier ou au modèle de caractère générique spécifié. La valeur par défaut est false. |
Rejeter le fichier | Chemin d’accès et nom de fichier du fichier contenant les entrées de journal qui ne répondent pas aux conditions du décodeur. |
Utiliser les heures de début/fin | True ou false. Si ce paramètre est défini sur true et que l’heure de début ou l’heure de fin est spécifiée, tous les fichiers de cette source de journal doivent avoir des noms de fichier commençant par des dates au format ISO (YYYMMDD). Chaque fichier contient des données pour un jour GMT (par exemple, la période commençant à 0000 GMT un jour et se terminant à 0000 GMT le jour suivant). Si les noms de fichiers des sources de journaux ne commencent pas par des dates ISO ou si les fichiers contiennent des données qui ne correspondent pas à un jour GMT, ce paramètre doit être défini sur false pour éviter des résultats incorrects.
Remarque : Si les exigences d’attribution de nom et de plage horaire décrites ci-dessus sont respectées pour les fichiers XML et que vous définissez ce paramètre sur true, le groupe de décodeur XML spécifié limite les fichiers lus à ceux dont les noms comportent des dates ISO comprises entre l’heure de début et l’heure de fin spécifiées. Si vous définissez ce paramètre sur false, le serveur Data Workbench lit tous les fichiers XML pendant le traitement du journal pour déterminer les fichiers contenant des données dans les plages Heure de début et Heure de fin. Pour plus d’informations sur les paramètres Heure de début et Heure de fin, voir Filtres de données. |
Une fois les sources de données d’un jeu de données définies, ne supprimez pas les sources de journal XML ni ne déplacez-les. Seuls les fichiers XML nouvellement créés doivent être ajoutés au répertoire pour les sources de données.
Le flux de données Avro offre une méthode plus efficace d’intégration des données dans Data Workbench :
Avro fournit un format source unique pour les données de trafic et de commerce.
Le flux Avro est constitué de données compressées de plusieurs blocs source fournis par jour. Il ne contient que des champs renseignés et fournit des fonctions de surveillance et de notification, l’accès aux données historiques et la récupération automatique.
Le schéma, une disposition autodéfinie des fichiers journaux Avro, est inclus au début de chaque fichier.
De nouveaux champs sont ajoutés avec des informations de prise en charge pour ingérer des données de Data Workbench sans aucune modification requise du décodeur. Ces cas comprennent notamment :
En outre, l’utilisation du flux Avro permet un accès immédiat à tous les nouveaux champs du flux sans arrêt, ce qui permet de mettre à jour les champs sans nécessiter d’heure de service.
Le flux de données Avro est configuré dans des fichiers distincts :
Cet assistant configure le fichier journal du décodeur Avro.
Pour ouvrir, cliquez avec le bouton droit dans un espace de travail et sélectionnez Administration > Assistants > Assistant de décodage Avro.
Étape 1 : Sélection d’un fichier journal Avro.
Au cours de cette étape, vous pouvez sélectionner un fichier source pour le schéma Avro. Les schémas sont accessibles à partir d’un fichier journal (.log) ou d’un fichier de décodeur existant (.avro). Les schémas peuvent être extraits de l’un des fichiers.
Fichier journal Avro | Cliquez pour ouvrir un fichier journal (.log) afin d’afficher le schéma en haut du fichier journal et de générer le fichier de décodeur. |
---|---|
Fichier de décodage Avro | Cliquez pour ouvrir et modifier le schéma d’un fichier de décodeur (.avro) existant. |
Étape 2 : Sélectionner les champs de saisie.
Sélectionnez les champs d'entrée à utiliser dans le jeu de données pour transmettre le traitement du journal. Tous les champs du fichier s’affichent, ce qui vous permet de sélectionner les champs du flux.
A x-product(Generates row) est fourni si un tableau est rencontré dans les données. Ce champ génère de nouvelles lignes pour les données imbriquées d’un tableau en tant que champs d’entrée. Par exemple, si une ligne Accès contient de nombreuses valeurs Product dans un tableau, des lignes sont générées dans le fichier d’entrée pour chaque produit.
Sélectionner les valeurs par défaut | Sélectionnez les champs à identifier comme ensemble standard de champs par défaut . |
---|---|
Sélectionner tout | Sélectionnez tous les champs du fichier. |
Tout désélectionner | Effacez tous les champs du fichier. |
Étape 3 : Sélectionnez les champs qui sont copiés pour générer des lignes.
Comme de nouvelles lignes peuvent être créées à partir de valeurs imbriquées dans un tableau, chaque nouvelle ligne créée doit comporter un identifiant de suivi et un horodatage. Cette étape vous permet de sélectionner les champs à copier dans les lignes de l’enregistrement parent, tels qu’un ID de suivi et un horodatage. Vous pouvez également sélectionner d’autres valeurs à ajouter à chaque ligne.
Sélectionner les valeurs par défaut | Sélectionnez un ensemble standard de champs par défaut qui nécessitent de nouvelles valeurs de colonne ajoutées à chaque ligne, comme un identifiant de suivi et un horodatage. Par exemple, un hit_source est une valeur par défaut à ajouter à chaque nouvelle ligne (elle est définie comme valeur par défaut dans la liste). Vous pouvez ajouter d’autres valeurs de colonne à chaque ligne, si nécessaire. |
---|---|
Sélectionner tout | Sélectionnez tous les champs du fichier. |
Tout désélectionner | Effacez tous les champs du fichier. |
Utilisez la variable Rechercher pour rechercher des valeurs dans la liste.
Étape 4 : spécification du nom du décodeur
Attribuez un nom au groupe de champs et enregistrez-le en tant que fichier de décodeur. Le nom doit correspondre au nom du groupe de décodeur spécifié dans votre source de journal.
Étape 5 : Enregistrez le fichier de décodeur.
Le menu Fichier s’ouvre pour nommer le fichier de décodeur et l’enregistrer en tant que .cfg dans le fichier Journaux dossier.