Definición de transformaciones de búsqueda

Información sobre las transformaciones que puede utilizar para incorporar datos de búsqueda en el conjunto de datos.

Tenga en cuenta que no todos los tipos se pueden usar durante ambas fases del proceso de construcción del conjunto de datos.

Categorizar

La transformación Categorize utiliza una tabla de búsqueda de dos columnas compuesta por pares de patrón-cadena/valor. Durante esta transformación, el servidor de Data Workbench lee cada registro de datos de evento a su vez y compara el contenido de un campo designado del registro con cada una de las cadenas de patrón enumeradas en la primera columna de la tabla de búsqueda. Si el campo designado coincide con una de las cadenas de patrón, el servidor de Data Workbench escribe el valor (que se encuentra en la segunda columna) asociado a esa cadena de patrón en un campo de salida designado en el registro.

Las cadenas de la primera columna de la tabla de búsqueda pueden empezar con el carácter ^ o terminar en el carácter $ para forzar la coincidencia al principio y/o al final. Esta transformación no acepta expresiones regulares para definir condiciones de coincidencia en la primera columna. Si el valor de entrada es un vector de cadenas, cada cadena se ejecuta a través de la transformación y los resultados se añaden a un vector de cadena de salida.

Una transformación Categorize generalmente es más fácil y rápida que usar una transformación Regular Expression para lograr lo mismo.

NOTA

La prueba de subcadena utilizada en Categorize distingue entre mayúsculas y minúsculas a menos que se especifique lo contrario utilizando el parámetro Case Sensitive.

Parámetro Descripción Predeterminado
Nombre Nombre descriptivo de la transformación. Puede introducir cualquier nombre aquí.
Distinción entre mayúsculas y minúsculas Verdadero o falso. Especifica si la prueba de subcadena distingue entre mayúsculas y minúsculas. true
Comentarios Opcional. Notas sobre la transformación.
Condición Condiciones en las que se aplica esta transformación.
Predeterminado El valor predeterminado que se debe utilizar si la prueba de condición pasa y ninguna entrada en el archivo de categorización coincide con la entrada, o si el campo de entrada no está definido en la entrada de registro dada.
Delimitador

Cadena que se utiliza para separar las columnas del archivo de búsqueda. Debe tener un solo carácter de longitud.

Si mantiene pulsada la tecla Ctrl y hace clic con el botón derecho en el parámetro Delimitador, aparece un menú Insertar. Este menú contiene una lista de caracteres especiales que a menudo se utilizan como delimitadores.

Valores múltiples Verdadero o falso. Si el valor es true, cuando varias filas del archivo coinciden con la entrada, cada una de ellas tiene como resultado que se añada un valor al vector de salida de cadenas. Si es false, solo se utiliza en la salida la primera fila que coincida en el archivo. En este último caso, si la entrada es un vector, la salida es también un vector de longitud equivalente. Si la entrada es una cadena simple, el resultado también es una cadena simple. false
Archivo Ruta y nombre de archivo del archivo de categorización. Las rutas relativas son con respecto al directorio de instalación del servidor de Data Workbench. Este archivo se encuentra generalmente en el directorio de búsquedas dentro del directorio de instalación del servidor de Data Workbench.
Entrada El archivo de categorización coincide con sus subcadenas con el valor de este campo para identificar la fila coincidente del archivo.
Salida Nombre del campo asociado al resultado.

Consideraciones para la categorización

  • Los cambios en los archivos de búsqueda en las transformaciones Categorize definidas en el archivo Transformation.cfg o en un archivo Transformation Dataset Include requieren la retransformación del conjunto de datos. Los archivos de búsqueda de transformaciones Categorize definidas en el archivo Log Processing.cfg o en un archivo Log Processing Dataset Include no están sujetos a esta limitación. Para obtener información sobre el reprocesamiento de los datos, consulte Reprocesamiento y retransformación.

  • Categorize las transformaciones definidas en el Log Processing.cfg archivo o en un Log Processing Dataset Include archivo vuelven a cargar sus archivos de búsqueda cada vez que cambian los archivos de búsqueda. Los cambios no se aplican de forma retroactiva, pero se aplican a todos los datos de registro leídos después de que se produzca el cambio.

Este ejemplo ilustra el uso de la transformación Categorize para integrar los datos de búsqueda con los datos de evento recopilados a partir del tráfico del sitio web. Supongamos que un sitio web en particular tiene secciones comerciales y que existe el requisito de poder ver y realizar comparaciones en función del flujo de tráfico y el valor generados por las diferentes secciones. Puede crear un archivo de búsqueda que enumere las subcadenas utilizadas para identificar estas diferentes secciones.

El archivo de búsqueda Lookups\custommap.txt contiene la siguiente tabla:

/products/ Productos
^/deportes/ Deportes
^/noticias/ Noticias

Este archivo de categorización asigna todo lo que contenga la cadena "/products/" al valor "Products", cualquier cosa que empiece por "/sport/" al valor "Sports" y cualquier cosa que empiece por "/news/" al valor "News". La siguiente transformación de categorización utiliza el valor del campo cs-uri-stem como la cadena en la que se busca una subcadena coincidente. El resultado de la transformación se coloca en el campo x-custommap .

Suponiendo que el parámetro Multiple Values esté establecido en false, el ejemplo produciría los siguientes valores para x-custommap dados los valores listados para cs-uri-stem.

cs-uri-stem x-custommap
/sports/news/today.php Deportes
/sports/products/buy.php Productos
/news/headlines.php Noticias
/news/products/subscribe.php Productos

El resultado se basa en el orden de las subcadenas del archivo de búsqueda. Por ejemplo, el cs-uri-stem /sports/products/buy.php devuelve "Productos". Aunque el sistema de URI empieza por "/sport/", la cadena "/products/" aparece antes de "/sport/" en el archivo de búsqueda. Si el parámetro Multiple Values se estableciera en true, habría un valor adicional para x-custommap, ya que el último ejemplo coincidiría con dos filas en la tabla de consulta: Productos y Noticias.

FlatFileLookup

La transformación FlatFileLookup utiliza una tabla de búsqueda compuesta por cualquier número de columnas y filas (aunque recuerde que reside en la memoria). Durante este tipo de transformación, el servidor de Data Workbench lee cada registro de datos de evento a su vez y compara el contenido de un campo designado del registro con cada uno de los valores de una columna designada de la tabla de búsqueda. Si hay una coincidencia, el servidor de Data Workbench escribe uno o más valores de la fila correspondiente de la tabla de búsqueda en uno o más campos de salida designados en el registro de datos de evento.

La tabla de búsqueda utilizada durante esta transformación se rellena desde un archivo plano cuya ubicación especifique al definir la transformación.

Parámetro Descripción Predeterminado
Nombre Nombre descriptivo de la transformación. Puede introducir cualquier nombre aquí.
Comentarios Opcional. Notas sobre la transformación.
Condición Condiciones en las que se aplica esta transformación.
Predeterminado El valor predeterminado que se debe utilizar si se cumple la condición y si ninguna entrada del archivo de búsqueda coincide con la entrada.
Delimitador

Cadena que se utiliza para separar las columnas del archivo de búsqueda. Debe tener un solo carácter de longitud.

Si mantiene pulsada la tecla Ctrl y hace clic con el botón derecho en el parámetro Delimitador, aparece un menú Insertar. Este menú contiene una lista de caracteres especiales que a menudo se utilizan como delimitadores.

Archivo Ruta y nombre de archivo del archivo de búsqueda. Las rutas relativas son con respecto al directorio de instalación del servidor de Data Workbench. Este archivo se encuentra generalmente en el directorio de búsquedas dentro del directorio de instalación del servidor de Data Workbench.
Fila de encabezado Verdadero o falso. Indica que la primera fila de la tabla es una fila de encabezado que se va a ignorar en el procesamiento.
Entrada Nombre de columna es el nombre de la columna que se utiliza para hacer coincidir la entrada con las filas del archivo. Si Fila de encabezado es verdadera, puede ser el nombre de una columna del archivo de búsqueda. De lo contrario, debe ser el número de columna de base cero con el que se debe hacer coincidir. Nombre de campo es el nombre del campo utilizado para localizar la fila en el archivo de búsqueda.
Valores múltiples

Verdadero o falso. Determina si se debe devolver un valor único (una fila que coincida) o varios valores (uno por cada fila que coincida).

Nota: Si Varios valores está establecido en false, debe asegurarse de que no haya varias coincidencias. Cuando se producen varias coincidencias, no hay garantía de que se devuelva una coincidencia.

Salidas

Un vector de objetos de columna (resultados) en el que cada objeto está definido por los nombres de columna y campo.

El nombre de columna es la columna desde la que se obtiene el valor de salida. Si Fila de encabezado es verdadera, puede ser el nombre de una columna del archivo de búsqueda. De lo contrario, debe ser el número de columna de base cero con el que se debe hacer coincidir.

Nombre de campo es el nombre del campo utilizado para capturar el resultado. Tenga en cuenta que esto puede ser un vector de resultados, uno para cada fila identificada en caso de que el parámetro Multiple Values sea verdadero.

Consideraciones paraFlatFileLookup

  • La coincidencia del campo de entrada con el archivo de búsqueda siempre distingue entre mayúsculas y minúsculas.

  • Los cambios en los archivos de búsqueda en las transformaciones FlatFileLookup definidas en el archivo Transformation.cfg o en los archivos Transformation Dataset Include requieren la retransformación del conjunto de datos. Los archivos de búsqueda de transformaciones FlatFileLookup definidas en el archivo Log Processing.cfg o en los archivos Log Processing Dataset Include no están sujetos a esta limitación. Para obtener información sobre el reprocesamiento de los datos, consulte Reprocesamiento y retransformación.

  • FlatFileLookup las transformaciones en el Log Processing.cfg archivo o Log Processing Dataset Include archivos vuelven a cargar sus archivos de búsqueda cada vez que cambian los archivos de búsqueda. Los cambios no se aplican de forma retroactiva, pero se aplican a todos los datos de registro leídos después de que se produzca el cambio.

Este ejemplo ilustra el uso de la transformación FlatFileLookup para integrar los datos de búsqueda con los datos de evento recopilados a partir del tráfico del sitio web. Supongamos que desea aislar a los socios de sitios web que dirigen el tráfico al sitio web y transformar sus ID de socio en nombres más descriptivos. A continuación, puede utilizar nombres descriptivos para crear dimensiones y visualizaciones extendidas que se asemejen más claramente a la relación comercial que a la relación sitio a sitio utilizada para el tráfico de enrutamiento.

La transformación de ejemplo busca en el campo cs(referrer-query) el par nombre-valor de PartnerID y, si se encuentra, se utiliza el archivo de búsqueda Lookups\partners.txt para comparar el valor de PartnerID con los valores de la columna Partner de la tabla. Si se encuentra una fila, el campo de salida x-partner-name recibe el nombre de la columna PrintName de la fila identificada.

Si la tabla de búsqueda contiene la siguiente información:

ID Socio Inicio PrintName
1 P154 21 de agosto de 1999 Yahoo
2 P232 10 de julio de 2000 Microsoft
3 P945 12 de enero de 2001 Amazon

Los siguientes ejemplos se transformarían de la siguiente manera:

  • Si cs(referrer)(PartnerID) devuelve P232, el campo x-partner-name tendría el valor "Microsoft".
  • Si cs(referrer)(PartnerID) devuelve P100, el campo x-partner-name tendría el valor "No Partner".
  • Si cs(referrer)(PartnerID) no devuelve nada, el campo x-partner-name tendría el valor "No Partner" especificado por el parámetro Default .

ODBCLookup

La transformación ODBCLookup funciona como una transformación FlatFileLookup. La única diferencia es que la tabla de búsqueda utilizada durante esta transformación se rellena desde una base de datos ODBC y no desde un archivo plano.

NOTA

ODBCLookup las transformaciones solo se pueden ejecutar durante la fase de transformación del proceso de construcción del conjunto de datos. Cuando es posible, Adobe recomienda utilizar la transformación FlatFileLookup en lugar de la transformación ODBCLookup. FlatFileLookup las transformaciones son inherentemente más fiables porque no dependen de la disponibilidad de un sistema externo. Además, hay menos riesgo de que la tabla de búsqueda se modifique si reside en un archivo plano que controla localmente.

Parámetro Descripción Predeterminado
Nombre Nombre descriptivo de la transformación. Puede introducir cualquier nombre aquí.
Comentarios Opcional. Notas sobre la transformación.
Condición Condiciones en las que se aplica esta transformación.
Nombre de la fuente de datos DSN, proporcionado por un administrador del equipo de servidor de Data Workbench en el que se procesa el conjunto de datos, que hace referencia a la base de datos desde la que se van a cargar los datos.
Contraseña de base de datos La contraseña que se utilizará al conectarse a la base de datos. Si se ha configurado una contraseña para el DSN en el Administrador de fuentes de datos, esto puede dejarse en blanco. Cualquier contraseña proporcionada aquí anula la contraseña configurada para el DSN en el Administrador de fuentes de datos.
ID de usuario de base de datos ID de usuario que se utilizará al conectarse a la base de datos. Si se ha configurado un ID de usuario para el DSN en el Administrador de fuentes de datos, esto puede dejarse en blanco. Cualquier ID de usuario proporcionado aquí anula el ID de usuario configurado para el DSN en el Administrador de fuentes de datos.
Predeterminado El valor predeterminado que se debe utilizar si se cumple la condición y ninguna entrada del archivo de búsqueda coincide con la entrada.
Columna de entrada El nombre de columna es el nombre de columna o la expresión SQL para los datos que coinciden con los datos introducidos. Nombre de campo es el nombre del campo que contiene los datos que se van a buscar.
Valores múltiples

Verdadero o falso. Determina si se debe devolver un valor único (una fila que coincida) o varios valores (uno por cada fila que coincida).

Nota: Si Varios valores está establecido en false, debe asegurarse de que no haya varias coincidencias. Cuando se producen varias coincidencias, no hay garantía de que se devuelva una coincidencia.

Columnas de salida

Un vector de objetos de columna (resultados) donde cada objeto se define mediante nombres de columna y campo.

Column Name es el nombre o la expresión SQL de la columna desde la que se obtiene el valor de salida. Nombre de campo es el nombre del campo utilizado para capturar el resultado.

Identificador de tabla Expresión SQL que nombra la tabla o vista desde la que se van a cargar los datos. Un identificador de tabla típico es del formulario SCHEMA.TABLE.
  • Los parámetros Nombre de fuente de datos, Database User ID, Database Password e Identificador de tabla son los mismos que los parámetros de los mismos nombres que se describen para los orígenes de datos ODBC. Consulte Fuentes de datos ODBC.

  • A diferencia de las fuentes de datos ODBC, las transformaciones ODBCLookup no requieren una columna de ID creciente. Consulte Fuentes de datos ODBC. Esto se debe a que el contenido de la tabla de consulta no debe cambiar de ninguna manera mientras el conjunto de datos esté activo. Los cambios en una tabla o vista de búsqueda no se pueden detectar hasta que se produzca la retransformación. Para obtener información sobre el reprocesamiento de los datos, consulte Reprocesamiento y retransformación.

Supongamos que desea convertir registros DNS obsoletos a los registros actualizados. Ambos conjuntos de registros se almacenan en una base de datos SQL. Para realizar esta tarea, haría referencia a una tabla de búsqueda que se genera a partir de la base de datos y reemplazaría los registros DNS obsoletos.

Nuestra transformación de ejemplo busca en las entradas de registro el campo s-dns y, si se encuentra, se utiliza la tabla de búsqueda VISUAL.LOOKUP para comparar la entrada s-dns con las entradas de la columna OLDDNS de la tabla. Si una fila se encuentra en la tabla, el campo de salida s-dns recibe la entrada de registro DNS actualizada de la columna NEWDNS de la fila identificada.

En esta página