Définition des transformations Lookup

Informations sur les transformations que vous pouvez utiliser pour incorporer des données de recherche dans le jeu de données.

Notez que tous les types ne peuvent pas être utilisés lors des deux phases du processus de construction du jeu de données.

Catégorisation

La transformation Categorize utilise une table de recherche à deux colonnes composée de paires modèle-chaîne/valeur. Au cours de cette transformation, le serveur Data Workbench lit à son tour chaque enregistrement de données d’événement et compare le contenu d’un champ désigné dans l’enregistrement à chacune des chaînes de modèle répertoriées dans la première colonne de la table de recherche. Si le champ désigné correspond à l’une des chaînes de modèle, le serveur Data Workbench écrit la valeur (trouvée dans la deuxième colonne) associée à cette chaîne de modèle dans un champ de sortie désigné de l’enregistrement.

Les chaînes de la première colonne de la table de recherche peuvent éventuellement commencer par le caractère ^ et/ou se terminer par le caractère $ pour forcer la correspondance au début et/ou à la fin. Cette transformation n’accepte pas d’expressions régulières pour définir les conditions de correspondance dans la première colonne. Si la valeur d’entrée est un vecteur de chaînes, chaque chaîne est exécutée par la transformation et le ou les résultats sont ajoutés à un vecteur de chaîne de sortie.

Une transformation Categorize est généralement plus facile et plus rapide que l’utilisation d’une transformation Regular Expression pour accomplir la même chose.

REMARQUE

Le test de sous-chaîne utilisé dans Categorize est sensible à la casse, sauf indication contraire du paramètre Case Sensitive.

Paramètre Description Par défaut
Nom Nom descriptif de la transformation. Vous pouvez saisir n’importe quel nom ici.
Respect de la casse Vrai ou faux. Indique si le test de sous-chaîne est sensible à la casse. true
Commentaires Facultatif. Remarques sur la transformation.
Condition Les conditions dans lesquelles cette transformation est appliquée.
Par défaut La valeur par défaut à utiliser si le test de condition réussit et qu’aucune entrée dans le fichier de classification ne correspond à l’entrée ou si le champ d’entrée n’est pas défini dans l’entrée de journal donnée.
Délimiteur

Chaîne utilisée pour séparer les colonnes du fichier de recherche. Doit comporter un seul caractère.

Si vous maintenez la touche Ctrl enfoncée et cliquez avec le bouton droit dans le paramètre Délimiteur, un menu Insérer s’affiche. Ce menu contient une liste de caractères spéciaux, souvent utilisés comme délimiteurs.

Valeurs multiples Vrai ou faux. Si la valeur est true, lorsque plusieurs lignes du fichier correspondent à l’entrée, chaque correspondance entraîne l’ajout d’une valeur au vecteur de sortie des chaînes. Si la valeur est false, seule la première ligne correspondante du fichier est utilisée dans la sortie. Dans ce dernier cas, si l’entrée est un vecteur, la sortie est également un vecteur de longueur équivalente. Si l’entrée est une chaîne simple, la sortie est également une chaîne simple. false
Fichier Chemin et nom de fichier du fichier de catégorisation. Les chemins d’accès relatifs concernent le répertoire d’installation du serveur Data Workbench. Ce fichier se trouve généralement dans le répertoire Recherches du répertoire d’installation du serveur Data Workbench.
Entrée Le fichier de classification correspond à ses sous-chaînes par rapport à la valeur de ce champ afin d’identifier la ligne correspondante dans le fichier.
Sortie Nom du champ associé au résultat.

Observations relatives à la catégorisation

  • Les modifications apportées aux fichiers de recherche dans les transformations Categorize définies dans le fichier Transformation.cfg ou dans un fichier Transformation Dataset Include nécessitent une retransformation du jeu de données. Les fichiers de recherche pour les transformations Categorize définies dans le fichier Log Processing.cfg ou un fichier Log Processing Dataset Include ne sont pas soumis à cette limitation. Pour plus d’informations sur le retraitement de vos données, voir Retraitement et retransformation.

  • Categorize les transformations définies dans le Log Processing.cfg fichier ou un Log Processing Dataset Include fichier rechargent leurs fichiers de recherche chaque fois que les fichiers de recherche changent. Les modifications ne sont pas appliquées rétroactivement, mais elles s’appliquent à toutes les données de journal lues après la modification.

Cet exemple illustre l’utilisation de la transformation Categorize pour intégrer les données de recherche aux données d’événement collectées à partir du trafic du site web. Supposons qu’un site web particulier comporte des sections commerciales et qu’il soit nécessaire de pouvoir examiner et effectuer des comparaisons en fonction du flux de trafic et de la valeur générés par les différentes sections. Vous pouvez créer un fichier de recherche qui répertorie les sous-chaînes utilisées pour identifier ces différentes sections.

Le fichier de recherche Lookups\custommap.txt contient le tableau suivant :

/products/ Produits
^/sports/ Sports
^/actualités/ News

Ce fichier de classification associe tout ce qui contient la chaîne "/products/" à la valeur "Products", tout ce qui commence par "/sports/" à la valeur "Sports" et tout ce qui commence par "/news/" à la valeur "News". La transformation de classification suivante utilise la valeur du champ cs-uri-stem comme chaîne dans laquelle nous recherchons une sous-chaîne correspondante. Le résultat de la transformation est placé dans le champ x-custommap .

En supposant que le paramètre Plusieurs valeurs soit défini sur false, l’exemple produirait les valeurs suivantes pour x-custommap , selon les valeurs répertoriées pour cs-uri-stem.

cs-uri-stem x-custommap
/sports/news/today.php Sports
/sports/products/buy.php Produits
/news/headlines.php News
/news/products/subscribe.php Produits

La sortie est basée sur l’ordre des sous-chaînes dans le fichier de recherche. Par exemple, la propriété cs-uri-stem /sports/products/buy.php renvoie "Products". Bien que la racine URI commence par "/sports/", la chaîne "/products/" est répertoriée avant "/sports/" dans le fichier de recherche. Si le paramètre Valeurs multiples était défini sur true, il y aurait une valeur supplémentaire pour x-custommap, car le dernier exemple correspondrait à deux lignes dans le tableau de recherche : Produits et actualités.

FlatFileLookup

La transformation FlatFileLookup utilise une table de recherche composée de n’importe quel nombre de colonnes et de lignes (bien que, rappelez-vous qu’elle réside dans la mémoire). Pendant ce type de transformation, le serveur Data Workbench lit à son tour chaque enregistrement de données d’événement et compare le contenu d’un champ désigné dans l’enregistrement à chacune des valeurs d’une colonne désignée de la table de recherche. S’il existe une correspondance, le serveur Data Workbench écrit une ou plusieurs valeurs de la ligne correspondante dans le tableau de recherche vers un ou plusieurs champs de sortie désignés dans l’enregistrement de données d’événement.

La table de recherche utilisée pendant cette transformation est renseignée à partir d’un fichier plat dont vous spécifiez l’emplacement lorsque vous définissez la transformation.

Paramètre Description Par défaut
Nom Nom descriptif de la transformation. Vous pouvez saisir n’importe quel nom ici.
Commentaires Facultatif. Remarques sur la transformation.
Condition Les conditions dans lesquelles cette transformation est appliquée.
Par défaut Valeur par défaut à utiliser si la condition est remplie et si aucune entrée dans le fichier de recherche ne correspond à l’entrée.
Délimiteur

Chaîne utilisée pour séparer les colonnes du fichier de recherche. Doit comporter un seul caractère.

Si vous maintenez la touche Ctrl enfoncée et cliquez avec le bouton droit dans le paramètre Délimiteur, un menu Insérer s’affiche. Ce menu contient une liste de caractères spéciaux, souvent utilisés comme délimiteurs.

Fichier Chemin et nom de fichier du fichier de recherche. Les chemins d’accès relatifs concernent le répertoire d’installation du serveur Data Workbench. Ce fichier se trouve généralement dans le répertoire Recherches du répertoire d’installation du serveur Data Workbench.
Rangée d’en-tête Vrai ou faux. Indique que la première rangée du tableau est une rangée d’en-tête à ignorer lors du traitement.
Entrée Nom de colonne est le nom de la colonne utilisée pour faire correspondre l’entrée à la ou aux lignes du fichier. Si la valeur de la ligne d’en-tête est true, il peut s’agir du nom d’une colonne dans le fichier de recherche. Dans le cas contraire, il doit s’agir du numéro de colonne de base zéro auquel la correspondance doit être établie. Nom du champ est le nom du champ utilisé pour localiser la ligne dans le fichier de recherche.
Valeurs multiples

Vrai ou faux. Détermine si une seule valeur (une ligne correspondante) ou plusieurs valeurs doivent être renvoyées (une pour chaque ligne correspondante).

Remarque : Si plusieurs valeurs est défini sur false, vous devez vous assurer qu’il n’y a pas plusieurs correspondances. Lorsque plusieurs correspondances se produisent, rien ne garantit que la correspondance sera renvoyée.

Sorties

Un vecteur d’objets de colonne (résultats) dans lequel chaque objet est défini par les noms de colonne et de champ.

Column Name est la colonne à partir de laquelle la valeur de sortie est obtenue. Si Rangée d’en-tête est vraie, il peut s’agir du nom d’une colonne dans le fichier de recherche. Dans le cas contraire, il doit s’agir du numéro de colonne de base zéro auquel la correspondance doit être établie.

Nom du champ est le nom du champ utilisé pour capturer la sortie. Notez qu’il peut s’agir d’un vecteur de résultats, un pour chaque ligne identifiée dans le cas où le paramètre Valeurs multiples est défini sur "true".

Considérations pourFlatFileLookup

  • La correspondance du champ d’entrée avec le fichier de recherche est toujours sensible à la casse.

  • Les modifications apportées aux fichiers de recherche dans les transformations FlatFileLookup définies dans le fichier Transformation.cfg ou les fichiers Transformation Dataset Include nécessitent une retransformation du jeu de données. Les fichiers de recherche pour les transformations FlatFileLookup définies dans le fichier Log Processing.cfg ou les fichiers Log Processing Dataset Include ne sont pas soumis à cette limitation. Pour plus d’informations sur le retraitement de vos données, voir Retraitement et retransformation.

  • FlatFileLookup Les transformations du Log Processing.cfg fichier ou Log Processing Dataset Include des fichiers rechargent leurs fichiers de recherche chaque fois que les fichiers de recherche changent. Les modifications ne sont pas appliquées rétroactivement, mais elles s’appliquent à toutes les données de journal lues après la modification.

Cet exemple illustre l’utilisation de la transformation FlatFileLookup pour intégrer les données de recherche aux données d’événement collectées à partir du trafic du site web. Supposons que vous souhaitiez isoler les partenaires de site web qui acheminent le trafic vers le site web et transformer leurs ID de partenaire en noms plus conviviaux. Vous pouvez ensuite utiliser les noms conviviaux pour créer des dimensions et des visualisations étendues qui correspondent plus clairement aux relations commerciales qu’aux relations de site à site utilisées pour le routage du trafic.

L’exemple de transformation recherche la paire nom-valeur dans le champ cs(referrer-query) du PartnerID et, s’il est localisé, le fichier de recherche Lookups\partners.txt est utilisé pour comparer la valeur PartnerID aux valeurs de la colonne Partner du tableau. Si une ligne est localisée, le champ de sortie x-partner-name reçoit le nom de la colonne PrintName de la ligne identifiée.

Si la table de recherche contenait les informations suivantes :

ID Partenaire Démarré PrintName
1 P154 21 août 1999 Yahoo
2 P232 10 juillet 2000 Microsoft
3 P945 12 janvier 2001 Amazon

Les exemples suivants transformeraient comme suit :

  • Si cs(referrer)(PartnerID) renvoie P232, le champ x-partner-name reçoit la valeur "Microsoft".
  • Si cs(referrer)(PartnerID) renvoie P100, le champ x-partner-name reçoit la valeur "No Partner".
  • Si cs(referrer)(PartnerID) ne renvoie rien, le champ x-partner-name reçoit la valeur "No Partner" (Aucun partenaire) comme spécifié par le paramètre par défaut.

ODBCLookup

La transformation ODBCLookup fonctionne comme une transformation FlatFileLookup. La seule différence est que la table de recherche utilisée pendant cette transformation est renseignée à partir d’une base de données ODBC et non d’un fichier plat.

REMARQUE

ODBCLookup les transformations ne peuvent être exécutées que pendant la phase de transformation du processus de construction du jeu de données. Si possible, Adobe vous recommande d’utiliser la transformation FlatFileLookup au lieu de la transformation ODBCLookup. FlatFileLookup Les transformations sont par nature plus fiables, car elles ne dépendent pas de la disponibilité d’un système externe. En outre, il y a moins de risque que la table de recherche soit modifiée si elle réside dans un fichier plat que vous contrôlez localement.

Paramètre Description Par défaut
Nom Nom descriptif de la transformation. Vous pouvez saisir n’importe quel nom ici.
Commentaires Facultatif. Remarques sur la transformation.
Condition Les conditions dans lesquelles cette transformation est appliquée.
Nom de la source de données Un DSN, fourni par un administrateur de l’ordinateur serveur Data Workbench sur lequel le jeu de données est traité, qui fait référence à la base de données à partir de laquelle les données doivent être chargées.
Mot de passe de la base de données mot de passe à utiliser lors de la connexion à la base de données. Si un mot de passe a été configuré pour le DSN dans Administrateur de source de données, il peut rester vide. Tout mot de passe fourni ici remplace le mot de passe configuré pour le DSN dans Administrateur de source de données.
Identifiant utilisateur de base de données Identifiant utilisateur à utiliser lors de la connexion à la base de données. Si un ID utilisateur a été configuré pour le DSN dans Administrateur de source de données, ce champ peut rester vide. Tout ID utilisateur fourni ici remplace l’ID utilisateur configuré pour le DSN dans Administrateur de source de données.
Par défaut La valeur par défaut à utiliser si la condition est remplie et qu’aucune entrée dans le fichier de recherche ne correspond à l’entrée.
Colonne d’entrée Column Name est le nom de colonne ou l’expression SQL des données correspondantes à l’entrée. Nom du champ est le nom du champ contenant les données à rechercher.
Valeurs multiples

Vrai ou faux. Détermine si une seule valeur (une ligne correspondante) ou plusieurs valeurs doivent être renvoyées (une pour chaque ligne correspondante).

Remarque : Si plusieurs valeurs est défini sur false, vous devez vous assurer qu’il n’y a pas plusieurs correspondances. Lorsque plusieurs correspondances se produisent, rien ne garantit que la correspondance sera renvoyée.

Colonnes de sortie

Un vecteur d’objets de colonne (résultats) où chaque objet est défini par les noms de colonne et de champ.

Column Name est le nom de ou l’expression SQL de la colonne à partir de laquelle la valeur de sortie est obtenue. Nom du champ est le nom du champ utilisé pour capturer la sortie.

Identifiant de tableau Une expression SQL qui nomme la table ou la vue à partir de laquelle les données doivent être chargées. Un identifiant de tableau standard est du formulaire SCHEMA.TABLE.
  • Les paramètres Data Source Name, Database User ID, Database Password et Table Identifier sont identiques aux paramètres des mêmes noms décrits pour les sources de données ODBC. Voir Sources de données ODBC.

  • Contrairement aux sources de données ODBC, les transformations ODBCLookup ne nécessitent pas de colonne d’ID croissante. Voir Sources de données ODBC. En effet, le contenu de la table de recherche ne doit pas changer d’aucune manière pendant que le jeu de données est principal. Les modifications d’une table ou d’une vue de recherche ne peuvent pas être détectées tant que la retransformation n’a pas eu lieu. Pour plus d’informations sur le retraitement de vos données, voir Retraitement et retransformation.

Supposons que vous souhaitiez convertir des enregistrements DNS obsolètes en enregistrements mis à jour. Les deux ensembles d'enregistrements sont stockés dans une base de données SQL. Pour effectuer cette tâche, vous devez référencer une table de recherche générée à partir de la base de données et remplacer les enregistrements DNS obsolètes.

Notre exemple de transformation recherche les entrées de journal pour le champ s-dns et, s’il est localisé, la table de recherche VISUAL.LOOKUP est utilisée pour comparer l’entrée s-dns aux entrées de la colonne OLDDNS de la table. Si une ligne se trouve dans le tableau, le champ de sortie s-dns reçoit l'entrée d'enregistrement DNS mise à jour à partir de la colonne NEWDNS de la ligne identifiée.

Sur cette page