Leia mais sobre Datas Workbench Anúncio do fim da vida útil.
As fontes de log são arquivos que contêm os dados a serem usados para criar um conjunto de dados.
Os dados disponíveis nas fontes de log são chamados de dados de evento porque cada registro de dados representa um registro de transação ou uma única instância de um evento. O servidor do Data Workbench pode processar fontes de log derivadas de dados coletados por Sensors ou extraídos de outras fontes de dados.
Dados coletados por Sensors: Dados coletados por Sensors dos servidores HTTP e de aplicativos é transmitida para servidores do Data Workbench, que convertem os dados em log altamente compactado ( .vsl). Consulte Arquivos do sensor.
Dados extraídos pelo servidor Insight: O servidor do Data Workbench lê os dados do evento contidos em arquivos simples, arquivos XML ou bancos de dados compatíveis com ODBC e usa seus decodificadores para extrair os elementos desejados dos dados. Esses dados de evento não precisam ser residentes na memória, mas os registros que contêm os dados devem incluir uma ID de rastreamento. Consulte Arquivos de registro, Fontes de log XMLe Fontes de dados ODBC.
Para adicionar uma fonte de log
Abrir Log Processing.cfg no Data Workbench.
Clique com o botão direito do mouse Log Sources, depois clique em Add New.
Selecione uma das opções a seguir:
Os parâmetros específicos usados para definir um conjunto de dados variam com base no tipo de fonte de log a ser usada no processo de configuração do conjunto de dados. Especifique os parâmetros conforme indicado na seção correspondente à fonte de log apropriada:
Depois de definir sua fonte de log (e fazer alterações em outros parâmetros) no Log Processing.cfg , salve o arquivo localmente e salve-o no perfil do conjunto de dados no servidor do Data Workbench.
Um servidor do Data Workbench File Server Unit pode receber e armazenar Sensor arquivos, arquivos de log e arquivos XML e enviá-los para o servidor do Data Workbench Data Processing Units que constrói o conjunto de dados. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight.
Você pode abrir a configuração de qualquer fonte de log de um Transformation Dependency Map. Para obter informações sobre Transformation Dependency Map, consulte Ferramentas de configuração do conjunto de dados.
Dados do evento coletados por Sensors dos servidores HTTP e de aplicativos é transmitida para servidores do Data Workbench, que convertem os dados em log altamente compactado ( .vsl). O .vsl o formato de arquivo é gerenciado pelo servidor do Data Workbench e cada arquivo tem um nome do formato:
AAAMMDD-SENSORID.VSL
em que AAAMMDD é a data do ficheiro, e SENSORID é o nome (atribuído pela organização) que indica qual Sensor coletou e transmitiu os dados ao servidor do Data Workbench.
Para Sensor os seguintes parâmetros estão disponíveis nos arquivos :
Parâmetro | Descrição |
---|---|
Caminhos de registro | Os diretórios onde a função .vsl os arquivos são armazenados. O local padrão é o diretório Logs . Um caminho relativo refere-se ao diretório de instalação do servidor do Data Workbench. Você pode usar caracteres curingas para especificar qual .vsl arquivos para processar:
Por exemplo, o caminho do log Logs\*.vsl corresponde a qualquer arquivo no diretório Logs que termina em .vsl. O caminho do log Logs\*-SENSOR?.vsl corresponde arquivos no diretório Logs com qualquer data (AAAMMDD) e um único caractere após SENSOR, como em SENSOR1. Se quiser pesquisar todos os subdiretórios do caminho especificado, defina o parâmetro Recursive como true.
Observação: Se os arquivos forem ser lidos a partir de um servidor do Data Workbench Unidade de servidor de arquivos, você deve inserir o(s) URI(s) apropriado(s) no parâmetro Caminhos de log . Por exemplo, a variável URI /Logs/*-*.vsl corresponde a qualquer .vsl no diretório Logs. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight. |
Servidor de registro | Informações (Endereço, Nome, Porta, etc.) necessárias para se conectar a um servidor de arquivos. Se houver uma entrada no parâmetro Servidor de log, a variável Caminhos de registro são interpretadas como URIs. Caso contrário, serão interpretados como caminhos locais. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight. |
ID da Fonte de Log | O valor desse parâmetro pode ser qualquer string. Se um valor for especificado, esse parâmetro permitirá diferenciar entradas de log de diferentes fontes de log para identificação de origem ou processamento direcionado. O campo x-log-source-id é preenchido com um valor que identifica a origem do log para cada entrada de log. Por exemplo, se você quiser identificar entradas de log de um Sensor nomeado VSensor01, você pode digitar do VSensor01e essa string seria passada para o campo x-log-source-id para cada entrada de log dessa fonte. Para obter informações sobre o campo x-log-source-id, consulte Campos de registro de dados do evento. |
Recursivo | Verdadeiro ou falso. Se definido como verdadeiro, todos os subdiretórios de cada caminho especificados em Caminhos de registro são pesquisados em busca de arquivos correspondentes ao nome de arquivo ou padrão curinga especificado. O valor padrão é false. |
Usar Tempos de Início/Término | Verdadeiro ou falso. Se definido como true e a Hora de início ou Hora de término for especificada, todos os arquivos para essa fonte de log deverão ter nomes de arquivo começando com datas no formato ISO (AAAMMDD). Pressupõe-se que cada arquivo contenha dados para um dia GMT (por exemplo, o intervalo de tempo que começa em 0000 GMT em um dia e termina em 0000 GMT no dia seguinte). Se os arquivos de fontes de log contiverem dados que não correspondem a um dia GMT, esse parâmetro deverá ser definido como false para evitar resultados incorretos.
Observação: Por padrão, .vsl arquivos contendo dados coletados por Sensor atenda automaticamente aos requisitos de nomenclatura e intervalo de tempo descritos acima. Se você definir esse parâmetro como true, o servidor do Data Workbench sempre processará dados de arquivos cujos nomes incluem datas ISO que estão entre a Hora de início e a Hora de término especificadas. Se você definir esse parâmetro como falso, o servidor do Data Workbench lê todas as .vsl arquivos durante o processamento de log para determinar quais arquivos contêm dados dentro do intervalo Hora de início e Hora de término. Para obter informações sobre os parâmetros Hora de Início e Hora de Término, consulte Filtros de dados. |
Não use os parâmetros de configuração para Sensor fontes de dados para determinar quais entradas de log dentro de um arquivo de log devem ser incluídas em um conjunto de dados. Em vez disso, configure a fonte de dados para apontar para todos os arquivos de log em um diretório. Em seguida, use os parâmetros Hora inicial e Hora final de Log Processing.cfg para determinar quais entradas de log devem ser usadas na construção do conjunto de dados. Consulte Filtros de dados.
O arquivo que contém os dados do evento deve atender aos seguintes requisitos:
Cada registro de dados de evento no arquivo deve ser representado por uma linha.
Os campos em um registro devem ser separados, vazios ou não, por um delimitador ASCII. O servidor do Data Workbench não requer que você use um delimitador específico. Você pode usar qualquer caractere que não seja um caractere final de linha e não apareça em nenhum lugar dentro dos próprios dados do evento.
Cada registro no arquivo deve conter:
Para especificar horas de início e término para o processamento de dados, cada nome de arquivo deve ser do formulário:
em que YYYMMDD é o dia da Hora Média de Greenwich (GMT) de todos os dados no arquivo, e FONTE é uma variável que identifica a fonte de dados contida no arquivo.
Entre em contato com os Serviços de consultoria da Adobe para obter uma análise dos arquivos de log que você planeja incorporar ao conjunto de dados.
Para origens de log de arquivos de log, os parâmetros na tabela a seguir estão disponíveis.
O processamento de fontes de log do arquivo de log requer parâmetros adicionais que são definidos em um Log Processing Dataset Include , que contém um subconjunto dos parâmetros incluídos em um Log Processing.cfg , bem como parâmetros especiais para definir decodificadores para extrair dados do arquivo de log. Para obter informações sobre como definir decodificadores para fontes de log de arquivos de log, consulte Grupos do decodificador de arquivos de texto.
Parâmetro | Descrição |
---|---|
Nome | O identificador da origem do arquivo de log. |
Caminhos de registro | Os diretórios onde os arquivos de log são armazenados. O local padrão é o diretório Logs . Um caminho relativo refere-se ao diretório de instalação do servidor do Data Workbench. Você pode usar caracteres curingas para especificar quais arquivos de log processar:
Por exemplo, o caminho do log Logs\*.log corresponde a qualquer arquivo no diretório Logs que termina em .log. Se quiser pesquisar todos os subdiretórios do caminho especificado, defina o parâmetro Recursive como true. Se os arquivos forem ser lidos a partir de um servidor do Data Workbench Unidade de servidor de arquivos, você deve inserir o(s) URI(s) apropriado(s) no parâmetro Caminhos de log . Por exemplo, a variável URI/Logs/*.log corresponde a qualquer .log no diretório Logs. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight. |
Servidor de registro | Informações (Endereço, Nome, Porta, etc.) necessárias para se conectar a um servidor de arquivos. Se houver uma entrada no parâmetro Servidor de log, a variável Caminhos de registro são interpretadas como URIs. Caso contrário, serão interpretados como caminhos locais. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight. |
Comprimido | Verdadeiro ou falso. Esse valor deve ser definido como true se os arquivos de log a serem lidos pelo servidor do Data Workbench forem arquivos gzip compactados. |
Grupo decodificador | O nome do grupo do decodificador de arquivos de texto a ser aplicado à fonte de log do arquivo de log. Esse nome deve corresponder exatamente ao nome do grupo decodificador de arquivos de texto correspondente especificado no Inclusão do conjunto de dados de processamento de log arquivo. Consulte Grupos do decodificador de arquivos de texto. |
ID da Fonte de Log | O valor desse parâmetro pode ser qualquer string. Se um valor for especificado, esse parâmetro permitirá diferenciar entradas de log de diferentes fontes de log para identificação de origem ou processamento direcionado. O campo x-log-source-id é preenchido com um valor que identifica a origem do log para cada entrada de log. Por exemplo, se você deseja identificar entradas de log de uma fonte de arquivo de log chamada LogFile01, você pode digitar de LogFile01e essa string seria passada para o campo x-log-source-id para cada entrada de log dessa fonte. Para obter informações sobre o campo x-log-source-id, consulte Campos de registro de dados do evento. |
Padrão da máscara | Uma expressão regular com um subpadrão de captura único que extrai um nome consistente usado para identificar a origem de uma série de arquivos de log. Somente o nome do arquivo é considerado. O caminho e a extensão não são considerados para a correspondência de expressões regulares. Se você não especificar uma padrão de máscara, uma máscara é gerada automaticamente. Para os arquivos Logs\010105server1.log e Logs\010105server2.log, o padrão de máscara seria Consulte Expressões regulares. |
Recursivo | Verdadeiro ou falso. Se este parâmetro for definido como true, todos os subdiretórios de cada caminho especificados em Caminhos de registro são pesquisados em busca de arquivos correspondentes ao nome de arquivo ou padrão curinga especificado. O valor padrão é false. |
Rejeitar arquivo | O caminho e o nome do arquivo que contém as entradas de log que não atendem às condições do decodificador. |
Usar Tempos de Início/Término | Verdadeiro ou falso. Se este parâmetro for definido como true e a Hora de início ou Hora de término for especificada, todos os arquivos para essa fonte de log deverão ter nomes de arquivo começando com datas no formato ISO (AAAAMMDD). Pressupõe-se que cada arquivo contenha dados para um dia GMT (por exemplo, o intervalo de tempo que começa em 0000 GMT em um dia e termina em 0000 GMT no dia seguinte). Se os nomes de arquivos das fontes de log não começarem com datas ISO ou se os arquivos contiverem dados que não correspondem a um dia GMT, esse parâmetro deverá ser definido como false para evitar resultados incorretos.
Observação: Se os requisitos de nomenclatura e intervalo de tempo descritos acima forem cumpridos para os arquivos de log e você definir esse parâmetro como true, o grupo do decodificador de arquivos de texto especificado limitará os arquivos lidos àqueles cujos nomes têm datas ISO que estão entre a Hora de início e a Hora de término especificadas. Se você definir esse parâmetro como falso, o servidor do Data Workbench lê todos os arquivos de log durante o processamento do log para determinar quais arquivos contêm dados no intervalo de Hora de início e Hora de término. Para obter informações sobre os parâmetros Hora de Início e Hora de Término, consulte Filtros de dados. |
Neste exemplo, o conjunto de dados é construído a partir de dois tipos de fontes de log.
A Fonte de Log 0 especifica arquivos de log gerados a partir de dados de evento capturados por Sensor. Essa fonte de dados aponta para um diretório chamado Logs e para todos os arquivos nesse diretório com um .vsl extensão do nome do arquivo.
A Fonte de Log 1 aponta para todos os arquivos no diretório Logs com um .txt extensão do nome do arquivo. O grupo decodificador para essa fonte de log é chamado de "Logs de Texto".
Você não deve excluir ou mover arquivos de log depois que as fontes de dados de um conjunto de dados tiverem sido definidas. Somente os arquivos de log recém-criados devem ser adicionados ao diretório das fontes de dados.
O arquivo que contém os dados do evento deve atender aos seguintes requisitos:
Os dados do evento devem ser incluídos em um arquivo XML corretamente formatado com relações pai-filho apropriadas.
Um grupo decodificador exclusivo deve existir para cada formato de arquivo XML. Para obter informações sobre como construir um grupo decodificador, consulte Grupos do decodificador de XML.
Cada registro de visitante no arquivo deve conter:
Para especificar horas de início e término para o processamento de dados, cada nome de arquivo deve ser do formulário
YYYYMMDD-SOURCE.log
em que YYYMMDD é o dia da Hora Média de Greenwich (GMT) de todos os dados no arquivo, e FONTE é uma variável que identifica a fonte de dados contida no arquivo.
Para obter um exemplo de um arquivo XML que atenda a esses requisitos, consulte Grupos do decodificador de XML.
Entre em contato com o Adobe Consulting Services para obter uma análise dos arquivos de log XML que você planeja incorporar ao conjunto de dados.
Para fontes de log XML, os parâmetros na tabela a seguir estão disponíveis.
O processamento de fontes de log XML requer parâmetros adicionais que são definidos em um Log Processing Dataset Include , que contém um subconjunto dos parâmetros incluídos em um Log Processing.cfg , bem como parâmetros especiais para definir decodificadores para extrair dados do arquivo XML. Para obter informações sobre como definir decodificadores para fontes de log XML, consulte Grupos do decodificador de XML.
Campo | Descrição |
---|---|
Nome | O identificador da fonte de log XML. |
Caminhos de registro | Os diretórios onde as fontes de log XML são armazenadas. O local padrão é o diretório Logs . Um caminho relativo refere-se ao diretório de instalação do servidor do Data Workbench. Você pode usar caracteres curingas para especificar quais fontes de log XML processar:
Por exemplo, o caminho do log Logs\*.xml corresponde a qualquer arquivo no diretório Logs que termina em .xml. Se quiser pesquisar todos os subdiretórios do caminho especificado, defina a variável Recursivo para verdadeiro.
Observação: Se os arquivos forem ser lidos a partir de um servidor do Data Workbench Unidade de servidor de arquivos, você deve inserir o(s) URI(s) apropriado(s) no Caminhos de registro campo. Por exemplo, a variável URI/Logs/*.xml corresponde a qualquer .xml no diretório Logs. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight. |
Servidor de registro | Informações (Endereço, Nome, Porta, etc.) necessárias para se conectar a um servidor de arquivos. Se houver uma entrada no Servidor de registro , o Caminhos de registro são interpretadas como URIs. Caso contrário, serão interpretados como caminhos locais. Consulte Configurar uma unidade de servidor de arquivos do servidor Insight. |
Comprimido | Verdadeiro ou falso. Esse valor deve ser definido como true se as fontes de log XML que serão lidas pelo servidor do Data Workbench forem arquivos gzip compactados. |
Grupo decodificador | O nome do grupo do decodificador de XML a ser aplicado à fonte de log XML. Esse nome deve corresponder exatamente ao nome do grupo decodificador de XML correspondente especificado no Inclusão do conjunto de dados de processamento de log arquivo. Consulte Grupos do decodificador de XML. |
ID da Fonte de Log | O valor desse campo pode ser qualquer string. Se um valor for especificado, esse campo permitirá que você diferencie entradas de log de diferentes fontes de log para identificação de origem ou processamento direcionado. O campo x-log-source-id é preenchido com um valor que identifica a origem do log para cada entrada de log. Por exemplo, se você deseja identificar entradas de log de uma fonte de arquivo de log chamada XMLFile01, você pode digitar de XMLFile01e essa string seria passada para o campo x-log-source-id para cada entrada de log dessa fonte. Para obter informações sobre o campo x-log-source-id, consulte Campos de registro de dados do evento. |
Padrão da máscara | Uma expressão regular com um subpadrão de captura único que extrai um nome consistente usado para identificar a origem de uma série de arquivos de log. Somente o nome do arquivo é considerado. O caminho e a extensão não são considerados para a correspondência de expressões regulares. Se você não especificar uma padrão de máscara, uma máscara é gerada automaticamente. Para os arquivos Logs\010105server1.xml e Logs\010105server2.xml, o padrão de máscara seria Consulte Expressões regulares. |
Recursivo | Verdadeiro ou falso. Se este parâmetro for definido como true, todos os subdiretórios de cada caminho especificados em Caminhos de registro são pesquisados em busca de arquivos correspondentes ao nome de arquivo ou padrão curinga especificado. O valor padrão é false. |
Rejeitar arquivo | O caminho e o nome do arquivo que contém as entradas de log que não atendem às condições do decodificador. |
Usar Tempos de Início/Término | Verdadeiro ou falso. Se este parâmetro for definido como true e a Hora de início ou Hora de término for especificada, todos os arquivos para essa fonte de log deverão ter nomes de arquivo começando com datas no formato ISO (AAAAMMDD). Pressupõe-se que cada arquivo contenha dados para um dia GMT (por exemplo, o intervalo de tempo que começa em 0000 GMT em um dia e termina em 0000 GMT no dia seguinte). Se os nomes de arquivos das fontes de log não começarem com datas ISO ou se os arquivos contiverem dados que não correspondem a um dia GMT, esse parâmetro deverá ser definido como false para evitar resultados incorretos.
Observação: Se os requisitos de nomenclatura e intervalo de tempo descritos acima forem cumpridos para os arquivos XML e você definir esse parâmetro como true, o grupo decodificador XML especificado limitará os arquivos lidos àqueles cujos nomes têm datas ISO que se encaixam entre a Hora de início e a Hora de término especificadas. Se você definir esse parâmetro como falso, o servidor do Data Workbench lê todos os arquivos XML durante o processamento do log para determinar quais arquivos contêm dados no intervalo de Hora inicial e Hora final. Para obter informações sobre os parâmetros Hora de Início e Hora de Término, consulte Filtros de dados. |
Você não deve excluir ou mover fontes de log XML depois que as fontes de dados de um conjunto de dados tiverem sido definidas. Somente os arquivos XML recém-criados devem ser adicionados ao diretório das fontes de dados.
O feed de dados Avro fornece uma maneira mais eficiente de integrar os dados ao Data Workbench:
Avro fornece um formato de fonte única para dados de tráfego e comércio.
O feed Avro é composto de dados compactados de várias fontes fornecidas por dia. Ele fornece apenas campos preenchidos e oferece recursos de monitoramento e notificação, acesso a dados históricos e recuperação automática.
O schema, um layout autodefinidor de arquivos de log Avro, é incluído no início de cada arquivo.
Novos campos são adicionados com informações de suporte para assimilar dados de Data Workbench sem qualquer alteração necessária ao decodificador. Isso inclui:
Além disso, o uso do feed Avro permite acesso imediato a quaisquer novos campos no feed sem um desligamento, permitindo que os campos sejam atualizados sem requisitos de hora de serviço.
O feed de dados Avro é configurado em arquivos separados:
Este assistente configura o arquivo de log do decodificador de Avro.
Para abrir, clique com o botão direito do mouse em um espaço de trabalho e selecione Administrador > Assistentes > Assistente do Decodificador de Avro.
Etapa 1: Selecionar um arquivo de log Avro.
Nesta etapa, você pode selecionar um arquivo de origem para o esquema Avro. Os esquemas podem ser acessados de um arquivo de log (.log) ou de um arquivo decodificador existente (.avro). Os esquemas podem ser extraídos de qualquer arquivo.
Arquivo de log Avro | Clique em para abrir um arquivo de log (.log) para exibir o esquema na parte superior do arquivo de log e gerar o arquivo decodificador . |
---|---|
Arquivo do Decodificador Avro | Clique em para abrir e editar o esquema de um arquivo decodificador (.avro) existente. |
Etapa 2: Selecionar campos de entrada.
Selecione os campos de entrada a serem usados no conjunto de dados para passar pelo processamento de log. Todos os campos no arquivo serão exibidos, permitindo selecionar campos para o feed.
A x-product(Generates row) é fornecido se uma matriz for encontrada nos dados. Esse campo gera novas linhas para os dados aninhados em uma matriz como campos de entrada. Por exemplo, se você tiver uma linha de Ocorrência com muitos valores de Produto em uma matriz, as linhas serão geradas no arquivo de entrada para cada produto.
Selecionar padrões | Selecione os campos a serem identificados como um conjunto padrão de campos padrão . |
---|---|
Selecionar Todas | Selecione todos os campos no arquivo . |
Desmarcar tudo | Limpe todos os campos no arquivo . |
Etapa 3: Selecione os campos que são copiados para gerar linhas.
Como novas linhas podem ser criadas a partir de valores aninhados em uma matriz, cada nova linha criada deve ter uma ID de rastreamento e um carimbo de data e hora. Essa etapa permite selecionar os campos a serem copiados para linhas do registro pai, como uma ID de rastreamento e um carimbo de data e hora. Você também pode selecionar outros valores que deseja adicionar a cada linha.
Selecionar padrões | Selecione um conjunto padrão de campos padrão que exigem novos valores de coluna adicionados a cada linha, como ID de rastreamento e carimbo de data e hora. Por exemplo, um hit_source é um valor padrão que deve ser adicionado a cada nova linha (é definido como um valor padrão na lista). Você pode adicionar outros valores de coluna a cada linha, conforme necessário. |
---|---|
Selecionar Todas | Selecione todos os campos no arquivo . |
Desmarcar tudo | Limpe todos os campos no arquivo . |
Use o Pesquisar para localizar valores na lista.
Etapa 4: especifique o nome do decodificador
Atribua um nome ao grupo de campos e salve como um arquivo decodificador. O nome deve corresponder ao nome do grupo Decodificador especificado na fonte de log.
Etapa 5: Salve o arquivo decodificador.
O menu Arquivo será aberto para nomear o arquivo decodificador e salvar como um .cfg no Logs pasta.