Définition des transformations Lookup

IMPORTANT

En savoir plus sur le Data Workbench Annonce de fin de vie.

Informations sur les transformations que vous pouvez utiliser pour incorporer des données de recherche dans le jeu de données.

Notez que tous les types ne peuvent pas être utilisés lors des deux phases du processus de construction du jeu de données.

Catégorisation

Le Categorize La transformation utilise une table de recherche à deux colonnes composée de paires chaîne-modèle/valeur. Au cours de cette transformation, le serveur Data Workbench lit à son tour chaque enregistrement de données d’événement et compare le contenu d’un champ désigné dans l’enregistrement à chacune des chaînes de modèle répertoriées dans la première colonne de la table de recherche. Si le champ désigné correspond à l’une des chaînes de modèle, le serveur Data Workbench écrit la valeur (trouvée dans la deuxième colonne) associée à cette chaîne de modèle dans un champ de sortie désigné de l’enregistrement.

Les chaînes de la première colonne de la table de recherche peuvent éventuellement commencer par le caractère ^ et/ou se terminer par le caractère $ pour forcer la correspondance au début et/ou à la fin. Cette transformation n’accepte pas d’expressions régulières pour définir les conditions de correspondance dans la première colonne. Si la valeur d’entrée est un vecteur de chaînes, chaque chaîne est exécutée par la transformation et le ou les résultats sont ajoutés à un vecteur de chaîne de sortie.

A Categorize la transformation est généralement plus facile et plus rapide que l’utilisation d’une Regular Expression la transformation pour accomplir la même chose.

REMARQUE

Test de sous-chaîne utilisé dans Categorize est sensible à la casse, sauf indication contraire de l’utilisation de la propriété Case Sensitive .

Paramètre Description Par défaut
Nom Nom descriptif de la transformation. Vous pouvez saisir n’importe quel nom ici.
Respect de la casse True ou false. Indique si le test de sous-chaîne est sensible à la casse. true
Commentaires Facultatif. Remarques sur la transformation.
Condition Les conditions dans lesquelles cette transformation est appliquée.
Par défaut La valeur par défaut à utiliser si le test de condition réussit et qu’aucune entrée dans le fichier de classification ne correspond à l’entrée ou si le champ d’entrée n’est pas défini dans l’entrée de journal donnée.
Délimiteur

Chaîne utilisée pour séparer les colonnes du fichier de recherche. Doit comporter un seul caractère.

Si vous maintenez la touche Ctrl enfoncée et cliquez avec le bouton droit dans le paramètre Délimiteur, une Insérer s’affiche. Ce menu contient une liste de caractères spéciaux, souvent utilisés comme délimiteurs.

Plusieurs valeurs True ou false. Si la valeur est true, lorsque plusieurs lignes du fichier correspondent à l’entrée, chaque correspondance entraîne l’ajout d’une valeur au vecteur de sortie des chaînes. Si la valeur est false, seule la première ligne correspondante du fichier est utilisée dans la sortie. Dans ce dernier cas, si l’entrée est un vecteur, la sortie est également un vecteur de longueur équivalente. Si l’entrée est une chaîne simple, la sortie est également une chaîne simple. false
Fichier Chemin et nom de fichier du fichier de catégorisation. Les chemins d’accès relatifs concernent le répertoire d’installation du serveur Data Workbench. Ce fichier se trouve généralement dans le répertoire Recherches du répertoire d’installation du serveur Data Workbench.
Entrée Le fichier de classification correspond à ses sous-chaînes par rapport à la valeur de ce champ afin d’identifier la ligne correspondante dans le fichier.
Sortie Nom du champ associé au résultat.

Observations relatives à la catégorisation

  • Modifications apportées aux fichiers de recherche dans Categorize transformations définies dans la variable Transformation.cfg ou dans un fichier Transformation Dataset Include nécessite une retransformation du jeu de données. Fichiers de recherche pour Categorize transformations définies dans la variable Log Processing.cfg ou un Log Processing Dataset Include ne sont pas soumis à cette limitation. Pour plus d’informations sur le retraitement de vos données, voir Retraitement et retransformation.

  • Categorize transformations définies dans la variable Log Processing.cfg ou un Log Processing Dataset Include rechargez leurs fichiers de recherche chaque fois que les fichiers de recherche changent. Les modifications ne sont pas appliquées rétroactivement, mais elles s’appliquent à toutes les données de journal lues après la modification.

Cet exemple illustre l’utilisation de la fonction Categorize transformation pour intégrer les données de recherche aux données d’événement collectées à partir du trafic du site web. Supposons qu’un site web particulier comporte des sections commerciales et qu’il soit nécessaire de pouvoir examiner et effectuer des comparaisons en fonction du flux de trafic et de la valeur générés par les différentes sections. Vous pouvez créer un fichier de recherche qui répertorie les sous-chaînes utilisées pour identifier ces différentes sections.

Le fichier de recherche Lookups\custommap.txt contient le tableau suivant :

/produits/ Produits
^/sports/ Sports
^/actualités/ News

Ce fichier de classification associe tout ce qui contient la chaîne "/products/" à la valeur "Products", tout ce qui commence par "/sports/" à la valeur "Sports" et tout ce qui commence par "/news/" à la valeur "News". La transformation de classification suivante utilise la valeur du champ cs-uri-stem comme chaîne dans laquelle nous recherchons une sous-chaîne correspondante. Le résultat de la transformation est placé dans le champ x-custommap .

En supposant que le paramètre Plusieurs valeurs soit défini sur false, l’exemple produirait les valeurs suivantes pour x-custommap , selon les valeurs répertoriées pour cs-uri-stem.

cs-uri-stem x-custommap
/sports/news/today.php Sports
/sports/products/buy.php Produits
/news/headlines.php News
/news/products/subscribe.php Produits

La sortie est basée sur l’ordre des sous-chaînes dans le fichier de recherche. Par exemple, le système cs-uri-stem /sports/products/buy.php renvoie "Products". Bien que la racine URI commence par "/sports/", la chaîne "/products/" est répertoriée avant "/sports/" dans le fichier de recherche. Si le paramètre Valeurs multiples était défini sur true, il y aurait une valeur supplémentaire pour x-custommap, car le dernier exemple correspondrait à deux lignes dans le tableau de recherche : Produits et actualités.

FlatFileLookup

Le FlatFileLookup La transformation utilise une table de recherche composée de n’importe quel nombre de colonnes et de lignes (bien que, rappelez-vous qu’elle réside dans la mémoire). Pendant ce type de transformation, le serveur Data Workbench lit à son tour chaque enregistrement de données d’événement et compare le contenu d’un champ désigné dans l’enregistrement à chacune des valeurs d’une colonne désignée de la table de recherche. S’il existe une correspondance, le serveur Data Workbench écrit une ou plusieurs valeurs de la ligne correspondante dans le tableau de recherche vers un ou plusieurs champs de sortie désignés dans l’enregistrement de données d’événement.

La table de recherche utilisée pendant cette transformation est renseignée à partir d’un fichier plat dont vous spécifiez l’emplacement lorsque vous définissez la transformation.

Paramètre Description Par défaut
Nom Nom descriptif de la transformation. Vous pouvez saisir n’importe quel nom ici.
Commentaires Facultatif. Remarques sur la transformation.
Condition Les conditions dans lesquelles cette transformation est appliquée.
Par défaut Valeur par défaut à utiliser si la condition est remplie et si aucune entrée dans le fichier de recherche ne correspond à l’entrée.
Délimiteur

Chaîne utilisée pour séparer les colonnes du fichier de recherche. Doit comporter un seul caractère.

Si vous maintenez la touche Ctrl enfoncée et cliquez avec le bouton droit dans le paramètre Délimiteur, une Insérer s’affiche. Ce menu contient une liste de caractères spéciaux, souvent utilisés comme délimiteurs.

Fichier Chemin et nom de fichier du fichier de recherche. Les chemins d’accès relatifs concernent le répertoire d’installation du serveur Data Workbench. Ce fichier se trouve généralement dans le répertoire Recherches du répertoire d’installation du serveur Data Workbench.
Rangée d’en-tête True ou false. Indique que la première rangée du tableau est une rangée d’en-tête à ignorer lors du traitement.
Entrée Nom de la colonne est le nom de la colonne utilisée pour faire correspondre l’entrée à la ou aux lignes du fichier. Si la valeur de la ligne d’en-tête est true, il peut s’agir du nom d’une colonne dans le fichier de recherche. Dans le cas contraire, il doit s’agir du numéro de colonne de base zéro auquel la correspondance doit être établie. Nom du champ est le nom du champ utilisé pour localiser la ligne dans le fichier de recherche.
Plusieurs valeurs

True ou false. Détermine si une seule valeur (une ligne correspondante) ou plusieurs valeurs doivent être renvoyées (une pour chaque ligne correspondante).

Remarque : If Plusieurs valeurs est définie sur false, vous devez vous assurer qu’il n’y a pas plusieurs correspondances. Lorsque plusieurs correspondances se produisent, rien ne garantit que la correspondance sera renvoyée.

Sorties

Un vecteur d’objets de colonne (résultats) dans lequel chaque objet est défini par les noms de colonne et de champ.

Nom de la colonne est la colonne à partir de laquelle la valeur de sortie est obtenue. If Rangée d’en-tête est définie sur true, il peut s’agir du nom d’une colonne dans le fichier de recherche. Dans le cas contraire, il doit s’agir du numéro de colonne de base zéro auquel la correspondance doit être établie.

Nom du champ est le nom du champ utilisé pour capturer la sortie. Notez qu’il peut s’agir d’un vecteur de résultats, un pour chaque ligne identifiée dans le cas où le paramètre Valeurs multiples est défini sur "true".

Considérations pourFlatFileLookup

  • La correspondance du champ d’entrée avec le fichier de recherche est toujours sensible à la casse.

  • Modifications apportées aux fichiers de recherche dans FlatFileLookup transformations définies dans la variable Transformation.cfg fichier ou Transformation Dataset Include Les fichiers nécessitent une retransformation du jeu de données. Fichiers de recherche pour FlatFileLookup transformations définies dans la variable Log Processing.cfg fichier ou Log Processing Dataset Include Les fichiers ne sont pas soumis à cette limitation. Pour plus d’informations sur le retraitement de vos données, voir Retraitement et retransformation.

  • FlatFileLookup transformations dans la Log Processing.cfg fichier ou Log Processing Dataset Include Les fichiers rechargent leurs fichiers de recherche chaque fois que les fichiers de recherche changent. Les modifications ne sont pas appliquées rétroactivement, mais elles s’appliquent à toutes les données de journal lues après la modification.

Cet exemple illustre l’utilisation de la fonction FlatFileLookup transformation pour intégrer les données de recherche aux données d’événement collectées à partir du trafic du site web. Supposons que vous souhaitiez isoler les partenaires de site web qui acheminent le trafic vers le site web et transformer leurs ID de partenaire en noms plus conviviaux. Vous pouvez ensuite utiliser les noms conviviaux pour créer des dimensions et des visualisations étendues qui correspondent plus clairement aux relations commerciales qu’aux relations de site à site utilisées pour le routage du trafic.

L’exemple de transformation recherche la paire nom-valeur cs(referrer-query) dans le champ cs(referrer-query) et, si elle est localisée, le fichier de recherche. Lookups\partners.txt sert à comparer la valeur PartnerID aux valeurs de la variable Partner de la table. Si une ligne est située, le champ de sortie x-partner-name reçoit le nom de la fonction PrintName de la ligne identifiée.

Si la table de recherche contenait les informations suivantes :

ID Partenaire Démarré PrintName
1 P154 21 août 1999 Yahoo
2 P232 10 juillet 2000 Microsoft
3 P945 12 janvier 2001 Amazon

Les exemples suivants transformeraient comme suit :

  • Si cs(referrer)(PartnerID) renvoie P232, la valeur "Microsoft" est affectée au champ x-partner-name.
  • Si cs(referrer)(PartnerID) renvoie P100, le champ x-partner-name reçoit la valeur "No Partner".
  • Si cs(referrer)(PartnerID) ne renvoie rien, le champ x-partner-name reçoit la valeur "No Partner" (Aucun partenaire) comme spécifié par le paramètre par défaut.

ODBCLookup

Le ODBCLookup la transformation fonctionne comme un FlatFileLookup transformation. La seule différence est que la table de recherche utilisée pendant cette transformation est renseignée à partir d’une base de données ODBC et non d’un fichier plat.

REMARQUE

ODBCLookup les transformations ne peuvent être exécutées que pendant la phase de transformation du processus de construction du jeu de données. Si possible, Adobe vous recommande d’utiliser la variable FlatFileLookup plutôt que la transformation ODBCLookup transformation. FlatFileLookup Les transformations sont par nature plus fiables, car elles ne dépendent pas de la disponibilité d’un système externe. En outre, il y a moins de risque que la table de recherche soit modifiée si elle réside dans un fichier plat que vous contrôlez localement.

Paramètre Description Par défaut
Nom Nom descriptif de la transformation. Vous pouvez saisir n’importe quel nom ici.
Commentaires Facultatif. Remarques sur la transformation.
Condition Les conditions dans lesquelles cette transformation est appliquée.
Nom de la source de données Un DSN, fourni par un administrateur de l’ordinateur serveur Data Workbench sur lequel le jeu de données est traité, qui fait référence à la base de données à partir de laquelle les données doivent être chargées.
Mot de passe de la base de données mot de passe à utiliser lors de la connexion à la base de données. Si un mot de passe a été configuré pour le DSN dans la variable Administrateur de source de données, ce champ peut être laissé vide. Tout mot de passe fourni ici remplace le mot de passe configuré pour le DSN dans la variable Administrateur de source de données.
Identifiant utilisateur de base de données Identifiant utilisateur à utiliser lors de la connexion à la base de données. Si un ID utilisateur a été configuré pour le DSN dans la variable Administrateur de source de données, ce champ peut être laissé vide. Tout ID utilisateur fourni ici remplace l’ID utilisateur configuré pour le DSN dans la variable Administrateur de source de données.
Par défaut La valeur par défaut à utiliser si la condition est remplie et qu’aucune entrée dans le fichier de recherche ne correspond à l’entrée.
Colonne d’entrée Nom de la colonne est le nom de colonne ou l’expression SQL des données correspondantes à l’entrée. Nom du champ est le nom du champ contenant les données à rechercher.
Plusieurs valeurs

True ou false. Détermine si une seule valeur (une ligne correspondante) ou plusieurs valeurs doivent être renvoyées (une pour chaque ligne correspondante).

Remarque : If Plusieurs valeurs est définie sur false, vous devez vous assurer qu’il n’y a pas plusieurs correspondances. Lorsque plusieurs correspondances se produisent, rien ne garantit que la correspondance sera renvoyée.

Colonnes de sortie

Un vecteur d’objets de colonne (résultats) où chaque objet est défini par les noms de colonne et de champ.

Nom de la colonne est le nom de ou l’expression SQL de la colonne à partir de laquelle la valeur de sortie est obtenue. Nom du champ est le nom du champ utilisé pour capturer la sortie.

Identifiant de tableau Une expression SQL qui nomme la table ou la vue à partir de laquelle les données doivent être chargées. Un identifiant de tableau standard est du formulaire SCHEMA.TABLE.
  • Le nom de la source de données, Database User ID, Database Password, et les paramètres d’identifiant de tableau sont identiques à ceux des mêmes noms décrits pour les sources de données ODBC. Voir Sources de données ODBC.

  • Contrairement aux sources de données ODBC, ODBCLookup Les transformations ne nécessitent pas d’augmentation de la colonne ID. Voir Sources de données ODBC. Cela est dû au fait que le contenu de la table de recherche ne doit pas changer d’aucune manière pendant que le jeu de données est principal. Les modifications d’une table ou d’une vue de recherche ne peuvent pas être détectées tant que la retransformation n’a pas eu lieu. Pour plus d’informations sur le retraitement de vos données, voir Retraitement et retransformation.

Supposons que vous souhaitiez convertir des enregistrements DNS obsolètes en enregistrements mis à jour. Les deux ensembles d'enregistrements sont stockés dans une base de données SQL. Pour effectuer cette tâche, vous devez référencer une table de recherche générée à partir de la base de données et remplacer les enregistrements DNS obsolètes.

Notre exemple de transformation recherche les entrées de journal pour le champ s-dns et, s’il est localisé, la table de recherche VISUAL.LOOKUP est utilisée pour comparer l’entrée s-dns aux entrées dans la variable OLDDNS de la table. Si une ligne se trouve dans le tableau, le champ de sortie s-dns reçoit l’entrée d’enregistrement DNS mise à jour de la NEWDNS de la ligne identifiée.

Sur cette page