Fontes de log

As fontes de log são arquivos que contêm os dados a serem usados para criar um conjunto de dados.

Os dados disponíveis nas fontes de log são chamados de dados de evento porque cada registro de dados representa um registro de transação ou uma única instância de um evento. O servidor do Data Workbench pode processar fontes de log derivadas de dados coletados por Sensors ou extraídos de outras fontes de dados.

  • Dados coletados por Sensors: Os dados coletados por Sensors de HTTP e servidores de aplicativos são transmitidos para servidores do Data Workbench, que convertem os dados em arquivos de log altamente compactados ( .vsl). Consulte Arquivos do sensor.

  • Dados extraídos pelo servidor Insight: o servidor do Data Workbench lê os dados do evento contidos em arquivos simples, arquivos XML ou bancos de dados compatíveis com ODBC e usa seus decodificadores para extrair os elementos desejados dos dados. Esses dados de evento não precisam ser residentes na memória, mas os registros que contêm os dados devem incluir uma ID de rastreamento. Consulte Arquivos de Log, Fontes de Log XML e Fontes de Dados ODBC.

Para adicionar uma fonte de log

  1. Abra Log Processing.cfg no Data Workbench.

  2. Clique com o botão direito do mouse em Log Sources e depois clique em Add New.

  3. Selecione uma das opções a seguir:

    • Sensor
    • Log File
    • XML Log Source
    • ODBC Data Source
  4. Os parâmetros específicos usados para definir um conjunto de dados variam com base no tipo de fonte de log a ser usada no processo de configuração do conjunto de dados. Especifique os parâmetros conforme indicado na seção correspondente à fonte de log apropriada:

  5. Depois de definir sua fonte de log (e fazer alterações em outros parâmetros) no arquivo Log Processing.cfg, salve o arquivo localmente e salve-o no perfil do conjunto de dados no servidor do Data Workbench.

    OBSERVAÇÃO

    Um servidor do Data Workbench File Server Unit pode receber e armazenar arquivos Sensor, arquivos de log e arquivos XML e enviá-los para o Data Processing Units do servidor do Data Workbench que constrói o conjunto de dados. Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.

    Você pode abrir a configuração de qualquer fonte de log a partir de um Transformation Dependency Map. Para obter informações sobre Transformation Dependency Map, consulte Ferramentas de Configuração do Conjunto de Dados.

Requisitos

Os dados do evento coletados por Sensors de HTTP e servidores de aplicativos são transmitidos para servidores do Data Workbench, que convertem os dados em arquivos de log altamente compactados ( .vsl). O formato de arquivo .vsl é gerenciado pelo servidor do Data Workbench e cada arquivo tem um nome do formato:

AAAAMMDD-SENSORID.VSL

onde AAAMMDD é a data do arquivo, e SENSORID é o nome (atribuído pela organização) que indica qual Sensor coletou e transmitiu os dados ao servidor do Data Workbench.

Parâmetros

Para arquivos Sensor, os seguintes parâmetros estão disponíveis:

Parâmetro Descrição
Caminhos de registro

Os diretórios onde os arquivos .vsl são armazenados. O local padrão é o diretório Logs . Um caminho relativo refere-se ao diretório de instalação do servidor do Data Workbench.

Você pode usar caracteres curingas para especificar quais arquivos .vsl processar:

  • * corresponde a qualquer número de caracteres
  • ? corresponde a um único caractere

Por exemplo, o caminho de log Logs\*.vsl corresponde a qualquer arquivo no diretório Logs que termina em .vsl. O caminho de log Logs\*-SENSOR?.vsl corresponde arquivos no diretório Logs com qualquer data (AAAAMMDD) e um único caractere após SENSOR, como em SENSOR1.

Se quiser pesquisar todos os subdiretórios do caminho especificado, defina o parâmetro Recursive como true.

Observação: Se os arquivos devem ser lidos a partir de uma Unidade de Servidor de Arquivos do servidor do Data Workbench, você deve inserir os URIs apropriados no parâmetro Caminhos de Log. Por exemplo, o URI /Logs/*-*.vsl corresponde a qualquer arquivo .vsl no diretório Logs . Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.

Servidor de registro Informações (Endereço, Nome, Porta, etc.) necessárias para se conectar a um servidor de arquivos. Se houver uma entrada no parâmetro Servidor de Log, os Caminhos de Log serão interpretados como URIs. Caso contrário, serão interpretados como caminhos locais. Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.
ID da Fonte de Log

O valor desse parâmetro pode ser qualquer string. Se um valor for especificado, esse parâmetro permitirá diferenciar entradas de log de diferentes fontes de log para identificação de origem ou processamento direcionado. O campo x-log-source-id é preenchido com um valor que identifica a origem do log para cada entrada de log. Por exemplo, se você deseja identificar entradas de log de um Sensor chamado VSensor01, você pode digitar de VSensor01, e essa sequência seria passada para o campo x-log-source-id para cada entrada de log dessa origem.

Para obter informações sobre o campo x-log-source-id, consulte Campos de registro de dados do evento.

Recursivo Verdadeiro ou falso. Se definido como true, todos os subdiretórios de cada caminho especificados em Caminhos de Log serão pesquisados para procurar arquivos correspondentes ao nome de arquivo especificado ou padrão curinga. O valor padrão é false.
Usar Tempos de Início/Término

Verdadeiro ou falso. Se definido como true e a Hora de início ou Hora de término for especificada, todos os arquivos para essa fonte de log deverão ter nomes de arquivo começando com datas no formato ISO (AAAMMDD). Pressupõe-se que cada arquivo contenha dados para um dia GMT (por exemplo, o intervalo de tempo que começa em 0000 GMT em um dia e termina em 0000 GMT no dia seguinte). Se os arquivos de fontes de log contiverem dados que não correspondem a um dia GMT, esse parâmetro deverá ser definido como false para evitar resultados incorretos.

Observação: Por padrão, os arquivos .vsl contendo dados coletados pelo Sensor atendem automaticamente aos requisitos de nomenclatura e intervalo de tempo descritos acima. Se você definir esse parâmetro como true, o servidor do Data Workbench sempre processará dados de arquivos cujos nomes incluem datas ISO que estão entre a Hora de início e a Hora de término especificadas. Se você definir esse parâmetro como falso, o servidor do Data Workbench lê todos os arquivos .vsl durante o processamento do log para determinar quais arquivos contêm dados no intervalo de Hora de início e Hora de término.

Para obter informações sobre os parâmetros Hora de início e Hora de término, consulte Filtros de dados.

OBSERVAÇÃO

Não use os parâmetros de configuração para fontes de dados Sensor para determinar quais entradas de log dentro de um arquivo de log devem ser incluídas em um conjunto de dados. Em vez disso, configure a fonte de dados para apontar para todos os arquivos de log em um diretório. Em seguida, use os parâmetros Hora de início e Hora de término de Log Processing.cfg para determinar quais entradas de log devem ser usadas na construção do conjunto de dados. Consulte Filtros de dados.

O arquivo que contém os dados do evento deve atender aos seguintes requisitos:

  • Cada registro de dados de evento no arquivo deve ser representado por uma linha.

  • Os campos em um registro devem ser separados, vazios ou não, por um delimitador ASCII. O servidor do Data Workbench não requer que você use um delimitador específico. Você pode usar qualquer caractere que não seja um caractere final de linha e não apareça em nenhum lugar dentro dos próprios dados do evento.

  • Cada registro no arquivo deve conter:

    • Uma ID de rastreamento
    • Um carimbo de data/hora
  • Para especificar horas de início e término para o processamento de dados, cada nome de arquivo deve ser do formulário:

    • YYYYMMDD-SOURCE.log

    onde AAAAMMDD é o dia da Hora Média de Greenwich (GMT) de todos os dados no arquivo, e SOURCE é uma variável que identifica a fonte dos dados contidos no arquivo.

    OBSERVAÇÃO

    Entre em contato com os Serviços de consultoria da Adobe para obter uma análise dos arquivos de log que você planeja incorporar ao conjunto de dados.

Parâmetros

Para origens de log de arquivos de log, os parâmetros na tabela a seguir estão disponíveis.

OBSERVAÇÃO

O processamento de fontes de log do arquivo de log requer parâmetros adicionais que são definidos em um arquivo Log Processing Dataset Include, que contém um subconjunto dos parâmetros incluídos em um arquivo Log Processing.cfg, bem como parâmetros especiais para definir decodificadores para extrair dados do arquivo de log. Para obter informações sobre como definir decodificadores para fontes de log do arquivo de log, consulte Grupos do decodificador de arquivos de texto.

Parâmetro Descrição
Nome O identificador da origem do arquivo de log.
Caminhos de registro

Os diretórios onde os arquivos de log são armazenados. O local padrão é o diretório Logs . Um caminho relativo refere-se ao diretório de instalação do servidor do Data Workbench.

Você pode usar caracteres curingas para especificar quais arquivos de log processar:

  • * corresponde a qualquer número de caracteres.
  • ? corresponde a um único caractere.

Por exemplo, o caminho de log Logs\*.log corresponde a qualquer arquivo no diretório Logs que termina em .log.

Se quiser pesquisar todos os subdiretórios do caminho especificado, defina o parâmetro Recursive como true.

Se os arquivos devem ser lidos a partir de uma Unidade de Servidor de Arquivos do servidor do Data Workbench, você deve inserir os URIs apropriados no parâmetro Caminhos de Log. Por exemplo, o URI/Logs/*.log corresponde a qualquer arquivo .log no diretório Logs . Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.

Servidor de registro Informações (Endereço, Nome, Porta, etc.) necessárias para se conectar a um servidor de arquivos. Se houver uma entrada no parâmetro Servidor de Log, os Caminhos de Log serão interpretados como URIs. Caso contrário, serão interpretados como caminhos locais. Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.
Comprimido Verdadeiro ou falso. Esse valor deve ser definido como true se os arquivos de log a serem lidos pelo servidor do Data Workbench forem arquivos gzip compactados.
Grupo decodificador O nome do grupo do decodificador de arquivos de texto a ser aplicado à fonte de log do arquivo de log. Esse nome deve corresponder exatamente ao nome do grupo do decodificador de arquivos de texto correspondente especificado no arquivo Log Processing Dataset Include . Consulte Grupos do decodificador de arquivos de texto.
ID da Fonte de Log

O valor desse parâmetro pode ser qualquer string. Se um valor for especificado, esse parâmetro permitirá diferenciar entradas de log de diferentes fontes de log para identificação de origem ou processamento direcionado. O campo x-log-source-id é preenchido com um valor que identifica a origem do log para cada entrada de log. Por exemplo, se você deseja identificar entradas de log de uma fonte de arquivo de log chamada LogFile01, você pode digitar de LogFile01, e essa sequência seria passada para o campo x-log-source-id para cada entrada de log dessa fonte.

Para obter informações sobre o campo x-log-source-id, consulte Campos de registro de dados do evento.

Padrão da máscara

Uma expressão regular com um subpadrão de captura único que extrai um nome consistente usado para identificar a origem de uma série de arquivos de log. Somente o nome do arquivo é considerado. O caminho e a extensão não são considerados para a correspondência de expressões regulares. Se você não especificar um padrão de máscara, uma máscara será gerada automaticamente.

Para os arquivos Logs\010105server1.log e Logs\010105server2.log, o padrão de máscara seria [0-9]{6}(.*). Esse padrão extrai a string "server1" ou "server2" dos nomes de arquivos acima.

Consulte Expressões regulares.

Recursivo Verdadeiro ou falso. Se este parâmetro for definido como true, todos os subdiretórios de cada caminho especificados em Caminhos de Log serão pesquisados para procurar arquivos correspondentes ao nome de arquivo especificado ou padrão curinga. O valor padrão é false.
Rejeitar arquivo O caminho e o nome do arquivo que contém as entradas de log que não atendem às condições do decodificador.
Usar Tempos de Início/Término

Verdadeiro ou falso. Se este parâmetro for definido como true e a Hora de início ou Hora de término for especificada, todos os arquivos para essa fonte de log deverão ter nomes de arquivo começando com datas no formato ISO (AAAAMMDD). Pressupõe-se que cada arquivo contenha dados para um dia GMT (por exemplo, o intervalo de tempo que começa em 0000 GMT em um dia e termina em 0000 GMT no dia seguinte). Se os nomes de arquivos das fontes de log não começarem com datas ISO ou se os arquivos contiverem dados que não correspondem a um dia GMT, esse parâmetro deverá ser definido como false para evitar resultados incorretos.

Observação: Se os requisitos de nomenclatura e intervalo de tempo descritos acima forem cumpridos para os arquivos de log e você definir esse parâmetro como true, o grupo do decodificador de arquivos de texto especificado limitará os arquivos lidos àqueles cujos nomes têm datas ISO que estão entre a Hora de início e a Hora de término especificadas. Se você definir esse parâmetro como falso, o servidor do Data Workbench lê todos os arquivos de log durante o processamento do log para determinar quais arquivos contêm dados no intervalo de Hora de início e Hora de término.

Para obter informações sobre os parâmetros Hora de início e Hora de término, consulte Filtros de dados.

Neste exemplo, o conjunto de dados é construído a partir de dois tipos de fontes de log.

A Fonte de Log 0 especifica arquivos de log gerados a partir de dados de evento capturados por Sensor. Essa fonte de dados aponta para um diretório chamado Logs e para todos os arquivos nesse diretório com uma extensão .vsl de nome de arquivo.

A Fonte de Log 1 aponta para todos os arquivos no diretório Logs com uma extensão de nome de arquivo .txt. O grupo decodificador para essa fonte de log é chamado de "Logs de Texto".

Você não deve excluir ou mover arquivos de log depois que as fontes de dados de um conjunto de dados tiverem sido definidas. Somente os arquivos de log recém-criados devem ser adicionados ao diretório das fontes de dados.

O arquivo que contém os dados do evento deve atender aos seguintes requisitos:

  • Os dados do evento devem ser incluídos em um arquivo XML corretamente formatado com relações pai-filho apropriadas.

  • Um grupo decodificador exclusivo deve existir para cada formato de arquivo XML. Para obter informações sobre como construir um grupo decodificador, consulte Grupos do decodificador de XML.

  • Cada registro de visitante no arquivo deve conter:

    • Uma ID de rastreamento
    • Um carimbo de data/hora
  • Para especificar horas de início e término para o processamento de dados, cada nome de arquivo deve ser do formulário

YYYYMMDD-SOURCE.log

onde AAAAMMDD é o dia da Hora Média de Greenwich (GMT) de todos os dados no arquivo, e SOURCE é uma variável que identifica a fonte dos dados contidos no arquivo.

Para obter um exemplo de um arquivo XML que atende a esses requisitos, consulte Grupos do decodificador de XML.

OBSERVAÇÃO

Entre em contato com o Adobe Consulting Services para obter uma análise dos arquivos de log XML que você planeja incorporar ao conjunto de dados.

Parâmetros

Para fontes de log XML, os parâmetros na tabela a seguir estão disponíveis.

OBSERVAÇÃO

O processamento de fontes de log XML requer parâmetros adicionais definidos em um arquivo Log Processing Dataset Include, que contém um subconjunto de parâmetros incluídos em um arquivo Log Processing.cfg, bem como parâmetros especiais para definir decodificadores para extrair dados do arquivo XML. Para obter informações sobre como definir decodificadores para fontes de log XML, consulte Grupos do decodificador de XML.

Campo Descrição
Nome O identificador da fonte de log XML.
Caminhos de registro

Os diretórios onde as fontes de log XML são armazenadas. O local padrão é o diretório Logs . Um caminho relativo refere-se ao diretório de instalação do servidor do Data Workbench.

Você pode usar caracteres curingas para especificar quais fontes de log XML processar:

  • * corresponde a qualquer número de caracteres
  • ? corresponde a um único caractere

Por exemplo, o caminho de log Logs\*.xml corresponde a qualquer arquivo no diretório Logs que termina em .xml.

Se quiser pesquisar todos os subdiretórios do caminho especificado, defina o campo Recursive como true.

Observação: Se os arquivos devem ser lidos a partir de uma Unidade de Servidor de Arquivos do servidor do Data Workbench, você deve inserir os URIs apropriados no campo Caminhos de Log. Por exemplo, o URI/Logs/*.xml corresponde a qualquer arquivo .xml no diretório Logs. Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.

Servidor de registro Informações (Endereço, Nome, Porta, etc.) necessárias para se conectar a um servidor de arquivos. Se houver uma entrada no campo Servidor de Log, os Caminhos de Log serão interpretados como URIs. Caso contrário, serão interpretados como caminhos locais. Consulte Configurando uma unidade de servidor de arquivos do servidor Insight.
Comprimido Verdadeiro ou falso. Esse valor deve ser definido como true se as fontes de log XML que serão lidas pelo servidor do Data Workbench forem arquivos gzip compactados.
Grupo decodificador O nome do grupo do decodificador de XML a ser aplicado à fonte de log XML. Esse nome deve corresponder exatamente ao nome do grupo do decodificador de XML correspondente especificado no arquivo Log Processing Dataset Include . Consulte Grupos do decodificador de XML.
ID da Fonte de Log

O valor desse campo pode ser qualquer string. Se um valor for especificado, esse campo permitirá que você diferencie entradas de log de diferentes fontes de log para identificação de origem ou processamento direcionado. O campo x-log-source-id é preenchido com um valor que identifica a origem do log para cada entrada de log. Por exemplo, se você deseja identificar entradas de log de uma fonte de arquivo de log chamada XMLFile01, você pode digitar de XMLFile01, e essa sequência seria passada para o campo x-log-source-id para cada entrada de log dessa fonte.

Para obter informações sobre o campo x-log-source-id, consulte Campos de registro de dados do evento.

Padrão da máscara

Uma expressão regular com um subpadrão de captura único que extrai um nome consistente usado para identificar a origem de uma série de arquivos de log. Somente o nome do arquivo é considerado. O caminho e a extensão não são considerados para a correspondência de expressões regulares. Se você não especificar um padrão de máscara, uma máscara será gerada automaticamente.

Para os arquivos Logs\010105server1.xml e Logs\010105server2.xml, o padrão de máscara seria [0-9]{6}(.*). Esse padrão extrai a string "server1" ou "server2" dos nomes de arquivos acima.

Consulte Expressões regulares.

Recursivo Verdadeiro ou falso. Se este parâmetro for definido como true, todos os subdiretórios de cada caminho especificados em Caminhos de Log serão pesquisados para procurar arquivos correspondentes ao nome de arquivo especificado ou padrão curinga. O valor padrão é false.
Rejeitar arquivo O caminho e o nome do arquivo que contém as entradas de log que não atendem às condições do decodificador.
Usar Tempos de Início/Término

Verdadeiro ou falso. Se este parâmetro for definido como true e a Hora de início ou Hora de término for especificada, todos os arquivos para essa fonte de log deverão ter nomes de arquivo começando com datas no formato ISO (AAAAMMDD). Pressupõe-se que cada arquivo contenha dados para um dia GMT (por exemplo, o intervalo de tempo que começa em 0000 GMT em um dia e termina em 0000 GMT no dia seguinte). Se os nomes de arquivos das fontes de log não começarem com datas ISO ou se os arquivos contiverem dados que não correspondem a um dia GMT, esse parâmetro deverá ser definido como false para evitar resultados incorretos.

Observação: Se os requisitos de nomeação e intervalo de tempo descritos acima forem cumpridos para os arquivos XML e você definir esse parâmetro como true, o grupo decodificador de XML especificado limitará os arquivos lidos àqueles cujos nomes têm datas ISO que estejam entre a Hora de Início e a Hora de Término especificadas. Se você definir esse parâmetro como falso, o servidor do Data Workbench lê todos os arquivos XML durante o processamento do log para determinar quais arquivos contêm dados no intervalo de Hora inicial e Hora final.

Para obter informações sobre os parâmetros Hora de início e Hora de término, consulte Filtros de dados.

OBSERVAÇÃO

Você não deve excluir ou mover fontes de log XML depois que as fontes de dados de um conjunto de dados tiverem sido definidas. Somente os arquivos XML recém-criados devem ser adicionados ao diretório das fontes de dados.

O feed de dados Avro fornece uma maneira mais eficiente de integrar os dados ao Data Workbench:

  • Avro fornece um formato de fonte única para dados de tráfego e comércio.

  • O feed Avro é composto de dados compactados de várias fontes fornecidas por dia. Ele fornece apenas campos preenchidos e oferece recursos de monitoramento e notificação, acesso a dados históricos e recuperação automática.

  • O schema, um layout autodefinidor de arquivos de log Avro, é incluído no início de cada arquivo.

  • Novos campos são adicionados com informações de suporte para assimilar dados de Data Workbench sem qualquer alteração necessária ao decodificador. Dentre eles:

    • Evars: 1-250 (anteriormente 1-75)
    • Eventos personalizados: 1-1000 (versus 1-100)
    • Acesso às variáveis da solução para dados móveis, sociais e de vídeo
OBSERVAÇÃO

Além disso, o uso do feed Avro permite acesso imediato a quaisquer novos campos no feed sem um desligamento, permitindo que os campos sejam atualizados sem requisitos de hora de serviço.

O feed de dados Avro é configurado em arquivos separados:

  • Um Arquivo Avro Log: Este é o formato de log Avro gerado pelo decodificador para formatar dados de tráfego e comércio.
  • Um arquivo Avro Decoder: Esse arquivo permite mapear valores para o novo formato Avro. Você pode configurar o decodificador usando o Assistente do decodificador de avro.

Assistente do Decodificador de Avro

Este assistente configura o arquivo de log do decodificador de Avro.

Para abrir, clique com o botão direito do mouse em um espaço de trabalho e selecione Admin > Assistentes > Assistente do decodificador de avro.

Etapa 1: selecione um arquivo de log Avro.

Nesta etapa, você pode selecionar um arquivo de origem para o esquema Avro. Os esquemas podem ser acessados de um arquivo de log (.log) ou de um arquivo decodificador existente (.avro). Os esquemas podem ser extraídos de qualquer arquivo.

Arquivo de log Avro Clique em para abrir um arquivo de log (.log) para exibir o esquema na parte superior do arquivo de log e gerar o arquivo decodificador .
Arquivo do Decodificador Avro Clique em para abrir e editar o esquema de um arquivo decodificador (.avro) existente.

Etapa 2: Selecione Campos de entrada.

Selecione os campos de entrada a serem usados no conjunto de dados para passar pelo processamento de log. Todos os campos no arquivo serão exibidos, permitindo selecionar campos para o feed.

OBSERVAÇÃO

Um campo x-product(Generates row) é fornecido se uma matriz for encontrada nos dados. Esse campo gera novas linhas para os dados aninhados em uma matriz como campos de entrada. Por exemplo, se você tiver uma linha de Ocorrência com muitos valores de Produto em uma matriz, as linhas serão geradas no arquivo de entrada para cada produto.

Selecionar padrões Selecione os campos a serem identificados como um conjunto padrão de campos padrão .
Selecionar Todas Selecione todos os campos no arquivo .
Desmarcar tudo Limpe todos os campos no arquivo .

Etapa 3: Selecione os campos que são copiados para gerar linhas.

Como novas linhas podem ser criadas a partir de valores aninhados em uma matriz, cada nova linha criada deve ter uma ID de rastreamento e um carimbo de data e hora. Essa etapa permite selecionar os campos a serem copiados para linhas do registro pai, como uma ID de rastreamento e um carimbo de data e hora. Você também pode selecionar outros valores que deseja adicionar a cada linha.

Selecionar padrões Selecione um conjunto padrão de campos padrão que exigem novos valores de coluna adicionados a cada linha, como ID de rastreamento e carimbo de data e hora. Por exemplo, um campo hit_source é um valor padrão que deve ser adicionado a cada nova linha (é definido como um valor padrão na lista). Você pode adicionar outros valores de coluna a cada linha, conforme necessário.
Selecionar Todas Selecione todos os campos no arquivo .
Desmarcar tudo Limpe todos os campos no arquivo .

Use a caixa Pesquisar para localizar valores na lista.

Etapa 4: especifique o nome do decodificador

Atribua um nome ao grupo de campos e salve como um arquivo decodificador. O nome deve corresponder ao nome do grupo Decodificador especificado na fonte de log.

Etapa 5: Salve o arquivo decodificador.

O menu de arquivo será aberto para nomear o arquivo decodificador e salvar como um arquivo .cfg na pasta Logs.

Nesta página