Parâmetros de processamento de log

IMPORTANTE

Leia mais sobre Datas Workbench Anúncio do fim da vida útil.

Links para informações adicionais sobre parâmetros específicos no arquivo Log Processing.cfg .

Filtros de dados

Os filtros definidos na variável Log Processing.cfg Os arquivos incluem:

  • Hora de Término
  • Limite de hash
  • Hora inicial

A filtragem definida por esses parâmetros ocorre após as entradas de log deixarem os decodificadores e depois das transformações, mas antes de sua avaliação pela Log Entry Condition. Em geral, alterar qualquer um desses parâmetros resulta em alterações na composição do conjunto de dados.

A técnica recomendada para usar Sensor as fontes de dados para criar um conjunto de dados que cubra um período específico são usar os parâmetros Hora inicial e Hora final para o conjunto de dados.

O uso dos parâmetros Hora de início e Hora de término é preferível a outras técnicas, como mover arquivos de log para separá-los por diretório. Ao definir as horas de início e término do conjunto de dados, o servidor do Data Workbench usa automaticamente apenas as entradas de log que ocorreram dentro de um determinado intervalo. Supondo que a Hora final esteja no passado, o servidor do Data Workbench normalmente atualiza o conjunto de dados usando o mesmo conjunto de entradas de log, mesmo se o conjunto de dados for atualizado, por exemplo, adicionando uma nova transformação.

Entrada de log

Em essência, é um processo de filtragem nas entradas de log disponíveis. Se a variável Log Entry Condition retorna um valor false; a entrada do log é filtrada do conjunto disponível de entradas de log.

O Log Entry Condition é descrita através do uso de operações de condição (consulte Condições) e podem usar qualquer um dos campos de entrada coletados por Sensor (consulte o Data Workbench Sensor Guia ou quaisquer campos extensos produzidos por transformações contidas no Log Processing.cfg para definir as condições de teste. Log Entry as condições são aplicadas durante o processamento do log e, opcionalmente, podem ser aplicadas durante a transformação.

Este exemplo demonstra o uso da variável log entry condition para dados do site. Você pode usar o Log Entry Condition para criar conjuntos de dados que se concentram em uma porção específica do site ou visitantes que executam alguma ação específica no site.

O Log Entry Condition neste exemplo, cria um conjunto de dados que inclui apenas as entradas de log que fazem parte do armazenamento do site. Ao usar a variável RECondition test com o padrão correspondente “/store/.*” e cs-uri-stem como entrada para a expressão regular, somente páginas da Web que começam com a string “/store/” estão incluídos no conjunto de dados.

Divisão de chave

O número de IDs de rastreamento no conjunto de dados aumenta artificialmente, mas o número total de entradas de log processadas pelo servidor do Data Workbench não aumenta artificialmente, preservando o número total de eventos contáveis no conjunto de dados. Após a divisão dos dados de um único elemento, os dados são associados para sempre a duas IDs de rastreamento diferentes e não podem ser relacionados.

Por exemplo, se você estiver trabalhando com dados da Web, cada ID de rastreamento representa um visitante exclusivo. Se você ativar a divisão de chaves, os visitantes em seu conjunto de dados com grandes quantidades de dados do evento serão divididos em vários visitantes. Embora o número de visitantes no conjunto de dados seja aumentado artificialmente, o número total de eventos contáveis, como exibições de página ou reservas, não aumenta artificialmente. Após a divisão, os dados dos subvisitantes não poderão ser relacionados.

A divisão de chave usa um algoritmo probabilístico. Como resultado, há uma compensação entre o uso da memória, a probabilidade de falha, o limite de divisão de chave ( Split Key Bytes) e o tamanho do conjunto de dados. Com as configurações recomendadas (conforme listadas abaixo), a taxa de falha é baixa. Dos elementos cujos dados de evento excedem o limite de divisão de chave, aproximadamente 1 em 22.000 (geralmente menos de 1 por conjunto de dados) terão alguns de seus dados truncados em vez de divididos.

Os valores recomendados para cada parâmetro (sem e com divisão de chave) são mostrados na tabela a seguir.

Parâmetro Sem divisão de chave Divisão de chave
Bytes de Chave Máximos do Grupo 1e6 2e6
Dividir espaço do bucket da chave 6e6 6e6
Dividir Bytes de Chave 0 1e6
Proporção de espaço da chave dividida 10 10º

Group Maximum Key Bytes especifica a quantidade máxima de dados de evento que podem ser processados para uma única ID de rastreamento. Os dados que excedem esse limite são filtrados do processo de construção do conjunto de dados. Split Key Bytes representa o número de bytes em que uma única ID de rastreamento é dividida em vários elementos. Os elementos são divididos aproximadamente nesse número de bytes de acordo com uma distribuição de probabilidade. Split Key Space Ratio e Split Key Bucket Space controle a utilização da memória e a taxa de falha de divisão de chave.

OBSERVAÇÃO

Group Maximum Key Bytes, Split Key Bytes, Split Key Space Ratioe Split Key Bucket Space tudo deve ser declarado para que a divisão de chave funcione corretamente. Não altere os valores desses parâmetros sem consultar o Adobe.

Nesta página