Fuentes de registro

Los orígenes de registro son archivos que contienen los datos que se utilizarán para crear un conjunto de datos.

Los datos disponibles en las fuentes de registro se denominan datos de evento porque cada registro de datos representa un registro de transacción o una instancia única de un evento. El servidor de Data Workbench puede procesar orígenes de registro derivados de datos recopilados por Sensors o extraídos de otras fuentes de datos.

  • Datos recopilados por Sensors: Los datos recopilados por Sensors desde HTTP y los servidores de aplicaciones se transmiten a los servidores de Data Workbench, que convierten los datos en archivos de registro altamente comprimidos ( .vsl). Consulte Archivos de sensor.

  • Datos extraídos por Insight Server: el servidor de Data Workbench lee datos de evento contenidos en archivos planos, archivos XML o bases de datos compatibles con ODBC y utiliza sus descodificadores para extraer los elementos deseados de los datos. Estos datos de evento no tienen que residir en la memoria, pero los registros que contienen los datos deben incluir un ID de seguimiento. Consulte Archivos de registro, Orígenes de registro XML y Fuentes de datos ODBC.

Para agregar un origen de registro

  1. Abra Log Processing.cfg en Data Workbench.

  2. Haga clic con el botón secundario en Log Sources y, a continuación, haga clic en Add New.

  3. Seleccione una de las siguientes opciones:

    • Sensor
    • Log File
    • XML Log Source
    • ODBC Data Source
  4. Los parámetros específicos utilizados para definir un conjunto de datos varían según el tipo de fuente de registro que se utilizará en el proceso de configuración del conjunto de datos. Especifique los parámetros tal como se indica en la sección correspondiente al origen de registro correspondiente:

  5. Una vez definido el origen de registro (y realizado cambios en otros parámetros) en el archivo Log Processing.cfg, guarde el archivo localmente y guárdelo en el perfil del conjunto de datos en el servidor de Data Workbench.

    NOTA

    Un servidor de Data Workbench File Server Unit puede recibir y almacenar archivos Sensor, archivos de registro y archivos XML y servirlos a los Data Processing Units del servidor de Data Workbench que construyen el conjunto de datos. Consulte Configuración de una unidad de servidor de archivos de Insight Server.

    Puede abrir la configuración de cualquier origen de registro desde un Transformation Dependency Map. Para obtener más información sobre Transformation Dependency Map, consulte Herramientas de configuración de conjuntos de datos.

Requisitos

Los datos de evento recopilados por Sensors desde HTTP y los servidores de aplicaciones se transmiten a los servidores de Data Workbench, que convierten los datos en archivos de registro altamente comprimidos ( .vsl). El formato de archivo .vsl lo administra el servidor de Data Workbench y cada archivo tiene un nombre del formato:

AAAAMMDD-SENSORID.VSL

donde YYYMMDD es la fecha del archivo y SENSORID es el nombre (asignado por su organización) que indica qué Sensor recopiló y transmitió los datos al servidor de Data Workbench.

Parámetros

Para los archivos Sensor, están disponibles los siguientes parámetros:

Parámetro Descripción
Rutas de registro

Los directorios donde se almacenan los archivos .vsl. La ubicación predeterminada es el directorio Logs . Una ruta relativa hace referencia al directorio de instalación del servidor de Data Workbench.

Puede utilizar caracteres comodín para especificar qué archivos .vsl procesar:

  • * coincide con cualquier número de caracteres
  • ? hace coincidir un solo carácter

Por ejemplo, la ruta de registro Logs\*.vsl coincide con cualquier archivo del directorio Logs que termina en .vsl. La ruta de registro Logs\*-SENSOR?.vsl coincide con archivos del directorio Logs con cualquier fecha (AAAAMMDD) y un solo carácter después de SENSOR, como en SENSOR1.

Si desea buscar todos los subdirectorios de la ruta especificada, debe establecer el parámetro Recursive en true.

Nota: Si los archivos deben leerse desde la unidad de servidor de archivos de un servidor de Data Workbench, debe introducir los URI correspondientes en el parámetro de rutas de registro. Por ejemplo, el URI /Logs/*-*.vsl coincide con cualquier archivo .vsl del directorio Logs. Consulte Configuración de una unidad de servidor de archivos de Insight Server.

Servidor de registro Información (dirección, nombre, puerto, etc.) necesaria para conectarse a un servidor de archivos. Si hay una entrada en el parámetro del servidor de registro, las rutas de registro se interpretan como URI. De lo contrario, se interpretan como rutas locales. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
ID de origen de registro

El valor de este parámetro puede ser cualquier cadena. Si se especifica un valor, este parámetro le permite diferenciar las entradas de registro de diferentes fuentes de registro para la identificación de la fuente o el procesamiento dirigido. El campo x-log-source-id se rellena con un valor que identifica el origen del registro para cada entrada de registro. Por ejemplo, si desea identificar entradas de registro de un sensor denominado VSensor01, puede escribir desde VSensor01 y esa cadena se pasaría al campo x-log-source-id por cada entrada de registro de ese origen.

Para obtener información sobre el campo x-log-source-id, consulte Campos de registro de datos de evento.

Recursivo Verdadero o falso. Si se establece en true, todos los subdirectorios de cada ruta especificada en Rutas de registro buscarán archivos que coincidan con el nombre de archivo especificado o el patrón comodín. El valor predeterminado es false.
Usar horas de inicio/fin

Verdadero o falso. Si se establece en true y se especifica la hora de inicio o la hora de finalización, todos los archivos de este origen de registro deben tener nombres de archivo que empiecen por fechas en formato ISO (AAAAMMDD). Se supone que cada archivo contiene datos de un día GMT (por ejemplo, el intervalo de tiempo que comienza a las 000 GMT de un día y termina a las 000 GMT del día siguiente). Si los archivos de fuentes de registro contienen datos que no corresponden a un día GMT, este parámetro debe establecerse en false para evitar resultados incorrectos.

Nota: De forma predeterminada, los archivos .vsl que contienen datos recopilados por el Sensor cumplen automáticamente los requisitos de nomenclatura y intervalo de tiempo descritos anteriormente. Si establece este parámetro en true, el servidor de Data Workbench siempre procesa los datos de archivos cuyos nombres incluyen fechas ISO que se encuentran entre la hora de inicio y la hora de finalización especificadas. Si establece este parámetro en false, el servidor de Data Workbench lee todos los archivos .vsl durante el procesamiento del registro para determinar qué archivos contienen datos dentro del intervalo de la hora de inicio y la hora de finalización.

Para obtener información sobre los parámetros Hora de inicio y Hora de finalización, consulte Filtros de datos.

NOTA

No utilice los parámetros de configuración para fuentes de datos Sensor para determinar qué entradas de registro dentro de un archivo de registro deben incluirse en un conjunto de datos. En su lugar, configure el origen de datos para que apunte a todos los archivos de registro dentro de un directorio. A continuación, utilice los parámetros Hora de inicio y Hora de finalización de Log Processing.cfg para determinar qué entradas de registro deben utilizarse en la construcción del conjunto de datos. Consulte Filtros de datos.

El archivo que contiene los datos de evento debe cumplir los siguientes requisitos:

  • Cada registro de datos de evento del archivo debe estar representado por una línea.

  • Los campos de un registro deben separarse, estén vacíos o no, con un delimitador ASCII. El servidor de Data Workbench no requiere que utilice un delimitador específico. Puede utilizar cualquier carácter que no sea un carácter de fin de línea y que no aparezca en ningún lugar dentro de los datos del evento en sí.

  • Cada registro del archivo debe contener:

    • Un ID de seguimiento
    • Una marca de tiempo
  • Para especificar las horas de inicio y finalización del procesamiento de datos, cada nombre de archivo debe ser del formulario:

    • YYYYMMDD-SOURCE.log

    donde AAAAMMDD es el día de la hora media de Greenwich (GMT) de todos los datos del archivo, y SOURCE es una variable que identifica el origen de los datos contenidos en el archivo.

    NOTA

    Póngase en contacto con los servicios de consultoría de Adobe para obtener una revisión de los archivos de registro que planea incorporar al conjunto de datos.

Parámetros

Para los orígenes de registro de archivos de registro, están disponibles los parámetros de la siguiente tabla.

NOTA

El procesamiento de los orígenes de registro de archivos de registro requiere parámetros adicionales que se definen en un archivo Log Processing Dataset Include , que contiene un subconjunto de los parámetros incluidos en un archivo Log Processing.cfg, así como parámetros especiales para definir descodificadores para extraer datos del archivo de registro. Para obtener información sobre la definición de descodificadores para los orígenes de registro de archivos de registro, consulte Grupos de decodificadores de archivos de texto.

Parámetro Descripción
Nombre Identificador del origen del archivo de registro.
Rutas de registro

Los directorios en los que se almacenan los archivos de registro. La ubicación predeterminada es el directorio Logs . Una ruta relativa hace referencia al directorio de instalación del servidor de Data Workbench.

Puede utilizar caracteres comodín para especificar qué archivos de registro procesar:

  • * coincide con cualquier número de caracteres.
  • ? hace coincidir un solo carácter.

Por ejemplo, la ruta de registro Logs\*.log coincide con cualquier archivo del directorio Logs que termina en .log.

Si desea buscar todos los subdirectorios de la ruta especificada, debe establecer el parámetro Recursive en true.

Si los archivos deben leerse desde la unidad de servidor de archivos de un servidor de Data Workbench, debe introducir los URI correspondientes en el parámetro de rutas de registro. Por ejemplo, el URI/Logs/*.log coincide con cualquier archivo .log del directorio Logs. Consulte Configuración de una unidad de servidor de archivos de Insight Server.

Servidor de registro Información (dirección, nombre, puerto, etc.) necesaria para conectarse a un servidor de archivos. Si hay una entrada en el parámetro del servidor de registro, las rutas de registro se interpretan como URI. De lo contrario, se interpretan como rutas locales. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Comprimido Verdadero o falso. Este valor debe establecerse en true si los archivos de registro que va a leer el servidor de Data Workbench son archivos gzip comprimidos.
Grupo del decodificador Nombre del grupo de descodificadores de archivos de texto que se aplicará al origen de registro de archivos de registro. Este nombre debe coincidir exactamente con el nombre del grupo de descodificadores de archivos de texto correspondiente especificado en el archivo Incluir conjunto de datos de procesamiento de registros. Consulte Grupos de decodificadores de archivos de texto.
ID de origen de registro

El valor de este parámetro puede ser cualquier cadena. Si se especifica un valor, este parámetro le permite diferenciar las entradas de registro de diferentes fuentes de registro para la identificación de la fuente o el procesamiento dirigido. El campo x-log-source-id se rellena con un valor que identifica el origen del registro para cada entrada de registro. Por ejemplo, si desea identificar entradas de registro de un origen de archivos de registro denominado LogFile01, puede escribir desde LogFile01 y esa cadena se pasaría al campo x-log-source-id por cada entrada de registro de ese origen.

Para obtener información sobre el campo x-log-source-id, consulte Campos de registro de datos de evento.

Patrón de máscara

Expresión regular con un único subpatrón de captura que extrae un nombre coherente utilizado para identificar el origen de una serie de archivos de registro. Solo se tiene en cuenta el nombre del archivo. La ruta y la extensión no se consideran para la coincidencia de expresiones regulares. Si no especifica un patrón de máscara , se genera automáticamente una máscara.

Para los archivos Logs\010105server1.log y Logs\010105server2.log, el patrón de máscara sería [0-9]{6}(.*). Este patrón extrae la cadena "server1" o "server2" de los nombres de archivo anteriores.

Consulte Expresiones regulares.

Recursivo Verdadero o falso. Si este parámetro se establece en true, todos los subdirectorios de cada ruta especificada en Rutas de registro buscarán archivos que coincidan con el nombre de archivo especificado o el patrón comodín. El valor predeterminado es false.
Rechazar archivo Ruta y nombre de archivo del archivo que contiene las entradas de registro que no cumplen las condiciones del decodificador.
Usar horas de inicio/fin

Verdadero o falso. Si este parámetro se establece en true y se especifica la hora de inicio o la hora de finalización, todos los archivos de este origen de registro deben tener nombres de archivo que empiecen por fechas en formato ISO (AAAAMMDD). Se supone que cada archivo contiene datos de un día GMT (por ejemplo, el intervalo de tiempo que comienza a las 000 GMT de un día y termina a las 000 GMT del día siguiente). Si los nombres de archivo de las fuentes de registro no comienzan con fechas ISO, o si los archivos contienen datos que no corresponden a un día GMT, este parámetro debe establecerse en false para evitar resultados incorrectos.

Nota: Si se cumplen los requisitos de nomenclatura y intervalo de tiempo descritos anteriormente para los archivos de registro y se establece este parámetro en true, el grupo de descodificadores de archivos de texto especificado limita los archivos leídos a aquellos cuyos nombres tengan fechas ISO que se encuentran entre la hora de inicio y la hora de finalización especificadas. Si establece este parámetro en false, el servidor de Data Workbench lee todos los archivos de registro durante el procesamiento del registro para determinar qué archivos contienen datos dentro del intervalo de tiempo de inicio y de finalización.

Para obtener información sobre los parámetros Hora de inicio y Hora de finalización, consulte Filtros de datos.

En este ejemplo, el conjunto de datos se construye a partir de dos tipos de fuentes de registro.

El origen de registro 0 especifica los archivos de registro generados a partir de los datos de evento capturados por Sensor. Esta fuente de datos apunta a un directorio llamado Logs y a todos los archivos de ese directorio con una extensión de nombre de archivo .vsl.

El Origen de registro 1 apunta a todos los archivos del directorio Logs con la extensión de nombre de archivo .txt. El grupo de descodificadores de este origen de registro se llama "Registros de texto".

No debe eliminar ni mover archivos de registro una vez definidas las fuentes de datos de un conjunto de datos. Solo los archivos de registro recién creados deben agregarse al directorio para las fuentes de datos.

El archivo que contiene los datos de evento debe cumplir los siguientes requisitos:

  • Los datos de evento deben incluirse en un archivo XML con el formato correcto y con las relaciones principales-secundarias adecuadas.

  • Debe existir un grupo de decodificadores único para cada formato de archivo XML. Para obtener información sobre la construcción de un grupo de decodificadores, consulte Grupos de decodificadores XML.

  • Cada registro de visitante del archivo debe contener:

    • Un ID de seguimiento
    • Una marca de tiempo
  • Para especificar las horas de inicio y finalización del procesamiento de datos, cada nombre de archivo debe ser del formulario

YYYYMMDD-SOURCE.log

donde AAAAMMDD es el día de la hora media de Greenwich (GMT) de todos los datos del archivo, y SOURCE es una variable que identifica el origen de los datos contenidos en el archivo.

Para ver un ejemplo de un archivo XML que cumple estos requisitos, consulte Grupos de decodificadores XML.

NOTA

Póngase en contacto con los servicios de consultoría de Adobe para obtener una revisión de los archivos de registro XML que planea incorporar al conjunto de datos.

Parámetros

Para los orígenes de registro XML, están disponibles los parámetros de la siguiente tabla.

NOTA

El procesamiento de los orígenes de registros XML requiere parámetros adicionales que se definen en un archivo Log Processing Dataset Include, que contiene un subconjunto de los parámetros incluidos en un archivo Log Processing.cfg, así como parámetros especiales para definir descodificadores para extraer datos del archivo XML. Para obtener información sobre la definición de descodificadores para orígenes de registro XML, consulte Grupos de decodificadores XML.

Campo Descripción
Nombre Identificador del origen de registro XML.
Rutas de registro

Los directorios en los que se almacenan los orígenes de registro XML. La ubicación predeterminada es el directorio Logs . Una ruta relativa hace referencia al directorio de instalación del servidor de Data Workbench.

Puede utilizar caracteres comodín para especificar qué orígenes de registro XML procesar:

  • * coincide con cualquier número de caracteres
  • ? hace coincidir un solo carácter

Por ejemplo, la ruta de registro Logs\*.xml coincide con cualquier archivo del directorio Logs que termina en .xml.

Si desea buscar todos los subdirectorios de la ruta especificada, debe establecer el campo Recursive en true.

Nota: Si los archivos se van a leer desde la unidad de servidor de archivos de un servidor de Data Workbench, debe introducir los URI correspondientes en el campo Rutas de registro. Por ejemplo, el URI/Logs/*.xml coincide con cualquier archivo .xml del directorio Logs. Consulte Configuración de una unidad de servidor de archivos de Insight Server.

Servidor de registro Información (dirección, nombre, puerto, etc.) necesaria para conectarse a un servidor de archivos. Si hay una entrada en el campo Log Server , las rutas de registro se interpretan como URI. De lo contrario, se interpretan como rutas locales. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Comprimido Verdadero o falso. Este valor debe establecerse en true si las fuentes de registro XML que lee el servidor de Data Workbench son archivos gzip comprimidos.
Grupo del decodificador Nombre del grupo de decodificadores XML que se aplicará al origen de registro XML. Este nombre debe coincidir exactamente con el nombre del grupo de descodificadores XML correspondiente especificado en el archivo inclusión del conjunto de datos de procesamiento de registros. Consulte Grupos de decodificadores XML.
ID de origen de registro

El valor de este campo puede ser cualquier cadena. Si se especifica un valor, este campo permite diferenciar las entradas de registro de diferentes fuentes de registro para la identificación de la fuente o el procesamiento dirigido. El campo x-log-source-id se rellena con un valor que identifica el origen del registro para cada entrada de registro. Por ejemplo, si desea identificar entradas de registro de un origen de archivos de registro denominado XMLFile01, puede escribir desde XMLFile01 y esa cadena se pasaría al campo x-log-source-id por cada entrada de registro de ese origen.

Para obtener información sobre el campo x-log-source-id, consulte Campos de registro de datos de evento.

Patrón de máscara

Expresión regular con un único subpatrón de captura que extrae un nombre coherente utilizado para identificar el origen de una serie de archivos de registro. Solo se tiene en cuenta el nombre del archivo. La ruta y la extensión no se consideran para la coincidencia de expresiones regulares. Si no especifica un patrón de máscara , se genera automáticamente una máscara.

Para los archivos Logs\010105server1.xml y Logs\010105server2.xml, el patrón de máscara sería [0-9]{6}(.*). Este patrón extrae la cadena "server1" o "server2" de los nombres de archivo anteriores.

Consulte Expresiones regulares.

Recursivo Verdadero o falso. Si este parámetro se establece en true, todos los subdirectorios de cada ruta especificada en Rutas de registro buscarán archivos que coincidan con el nombre de archivo especificado o el patrón comodín. El valor predeterminado es false.
Rechazar archivo Ruta y nombre de archivo del archivo que contiene las entradas de registro que no cumplen las condiciones del decodificador.
Usar horas de inicio/fin

Verdadero o falso. Si este parámetro se establece en true y se especifica la hora de inicio o la hora de finalización, todos los archivos de este origen de registro deben tener nombres de archivo que empiecen por fechas en formato ISO (AAAAMMDD). Se supone que cada archivo contiene datos de un día GMT (por ejemplo, el intervalo de tiempo que comienza a las 000 GMT de un día y termina a las 000 GMT del día siguiente). Si los nombres de archivo de las fuentes de registro no comienzan con fechas ISO, o si los archivos contienen datos que no corresponden a un día GMT, este parámetro debe establecerse en false para evitar resultados incorrectos.

Nota: Si los requisitos de nomenclatura y intervalo de tiempo descritos anteriormente se cumplen para los archivos XML y se establece este parámetro en true, el grupo de descodificadores XML especificado limita los archivos leídos a aquellos cuyos nombres tengan fechas ISO que estén entre la hora de inicio y la hora de finalización especificadas. Si establece este parámetro en false, el servidor de Data Workbench lee todos los archivos XML durante el procesamiento del registro para determinar qué archivos contienen datos dentro del intervalo de tiempo de inicio y de finalización.

Para obtener información sobre los parámetros Hora de inicio y Hora de finalización, consulte Filtros de datos.

NOTA

No debe eliminar ni mover orígenes de registro XML después de definir los orígenes de datos de un conjunto de datos. Solo los archivos XML recién creados deben agregarse al directorio para los orígenes de datos.

La fuente de datos Avro proporciona una forma más eficaz de integrar datos en la Data Workbench:

  • Avro proporciona un formato de fuente única para los datos de comercio y tráfico.

  • La fuente Avro son datos comprimidos de varios fragmentos de origen proporcionados por día. Aprovisiona solo campos rellenados y proporciona funciones de supervisión y notificación, acceso a datos históricos y recuperación automática.

  • El esquema, un diseño autodefinido de los archivos de registro de Avro, se incluye al principio de cada archivo.

  • Se añaden nuevos campos con información de apoyo para introducir datos de Data Workbench sin necesidad de realizar ningún cambio en el decodificador. Se incluyen:

    • Evars: 1-250 (anteriormente 1-75)
    • Eventos personalizados: 1-1000 (frente a 1-100)
    • Acceso a variables de solución para datos móviles, sociales y de vídeo
NOTA

Además, el uso de la fuente Avro permite el acceso inmediato a cualquier campo nuevo de la fuente sin apagarse, lo que permite actualizar los campos sin necesidad de horas de servicio.

La fuente de datos Avro se configura en archivos separados:

  • Un archivo de registro de avro: Este es el formato de registro de Avro generado desde el decodificador para dar formato al tráfico y a los datos de comercio.
  • Un archivo de decodificador promedio: Este archivo permite asignar valores al nuevo formato Avro. Puede configurar el decodificador mediante el Asistente para decodificador automático.

Asistente de descodificador automático

Este asistente configura el archivo de registro del descodificador de Avro.

Para abrirlo, haga clic con el botón derecho en un espacio de trabajo y seleccione Admin > Asistentes > Asistente para decodificador previo.

Paso 1: seleccione un archivo de registro de avro.

En este paso, puede seleccionar un archivo de origen para el esquema Avro. Se puede acceder a los esquemas desde un archivo de registro (.log) o desde un archivo de decodificador existente (.avro). Los esquemas se pueden extraer de cualquiera de los archivos.

Archivo de registro de avro Haga clic en para abrir un archivo de registro (.log) para ver el esquema en la parte superior del archivo de registro y generar el archivo de decodificador.
Archivo de decodificador automático Haga clic en para abrir y editar el esquema de un archivo de decodificador (.avro) existente.

Paso 2: Seleccione Campos de entrada.

Seleccione los campos de entrada que se utilizarán en el conjunto de datos para pasar por el procesamiento de registros. Se muestran todos los campos del archivo, lo que le permite seleccionar los campos de la fuente.

NOTA

Se proporciona un campo x-product(Generates row) si se encuentra una matriz en los datos. Este campo genera nuevas filas para los datos anidados en una matriz como campos de entrada. Por ejemplo, si tiene una fila Visita individual con muchos valores de Producto en una matriz, entonces las filas se generarán en el archivo de entrada para cada producto.

Seleccionar valores predeterminados Seleccione los campos que desea identificar como un conjunto estándar de campos predeterminados .
Seleccionar todo Seleccione todos los campos del archivo.
Anular todas las selecciones Borre todos los campos del archivo.

Paso 3: Seleccione los campos que desea copiar para generar filas.

Dado que se pueden crear filas nuevas a partir de valores anidados en una matriz, cada fila nueva creada debe tener un ID de seguimiento y una marca de tiempo. Este paso le permite seleccionar los campos que se copiarán en las filas del registro principal, como un ID de seguimiento y una marca de tiempo. También puede seleccionar otros valores que desee añadir a cada fila.

Seleccionar valores predeterminados Seleccione un conjunto estándar de campos predeterminados que requieran nuevos valores de columna agregados a cada fila, como un ID de seguimiento y una marca de tiempo. Por ejemplo, un campo hit_source es un valor predeterminado que se debe agregar a cada nueva fila (se define como un valor predeterminado en la lista). Puede agregar otros valores de columna a cada fila según sea necesario.
Seleccionar todo Seleccione todos los campos del archivo.
Anular todas las selecciones Borre todos los campos del archivo.

Utilice el cuadro Buscar para buscar valores en la lista.

Paso 4: Especificar el nombre del decodificador

Asigne un nombre al grupo de campos y guárdelo como un archivo decodificador. El nombre debe coincidir con el nombre del grupo Decoder especificado en el origen de registro.

Paso 5: Guarde el archivo del decodificador.

Se abrirá el menú de archivos para asignar un nombre al archivo del decodificador y guardarlo como archivo .cfg en la carpeta Logs.

En esta página