Amostragem de dados e taxas de erro em relatórios de Audience Manager selecionados data-sampling-and-error-rates-in-selected-audience-manager-reports

Um resumo da metodologia de amostragem usada para alguns relatórios, taxas de erro de amostragem e uma lista de relatórios que retornam informações com base em dados de amostra.

Taxa de amostragem de dados data-sampling-ratio

Alguns relatórios do Audience Manager exibem resultados com base em um conjunto de amostras da quantidade total de dados disponíveis. A proporção de dados amostrados é de 1:54. Para relatórios que usam dados de amostra, isso significa que os resultados se baseiam em um registro de cada conjunto de 54 registros.

Esses relatórios usam dados de amostragem estatística porque precisam de uma enorme capacidade de computação para gerar resultados. A amostragem ajuda a obter um equilíbrio entre demandas computacionais reduzidas, mantendo o desempenho do sistema e fornecendo resultados precisos.

Taxas de erro error-rates

Erros podem ocorrer em relatórios que geram dados de sobreposição. Um erro é definido como a porcentagem de registros que:

  • Não deveria ter sido incluído em um relatório, mas foi adicionado mesmo assim.
  • Deveria ter sido incluído em um relatório, mas foi deixado de fora.

É importante observar que nossos testes e modelos mostram que a taxa de erro diminui em uma proporção inversa ao número de registros em seu conjunto de dados. Os conjuntos de dados que têm muitos registros geram menos erros do que conjuntos com um pequeno número de registros. Vamos analisar essa asserção de uma maneira mais quantitativa. Conforme mostrado na tabela a seguir, para um número definido de registros, 95% dos resultados do relatório estarão abaixo de uma taxa de erro específica.

Número de registros
Taxa de erro
500 - 1.000
95% estão abaixo de uma taxa de erro de 42%.
1.000 - 1.500
95% estão abaixo de uma taxa de erro de 34%.
10.000 - 50.000
95% estão abaixo de uma taxa de erro de 14%.
50.000
95% estão abaixo de uma taxa de erro de 6%.
100.000
95% estão abaixo de uma taxa de erro de 4%.
500.000 (ou mais)
95% estão abaixo de uma taxa de erro de 2%.

Utilização da Metodologia de amostragem Minhash minhash

Com base na metodologia de amostragem Minhash, o Audience Manager usa um novo método para calcular estimadores de características e segmentos sobre um esboço de dados de Hash de uma única personalização. Este novo método produz uma variação menor que o estimador padrão para similaridade de Jaccard. Consulte a seção abaixo para obter os relatórios que usam essa metodologia.

Relatórios que usam dados de amostra reports-using-sampled-data

Os relatórios Audience Manager que usam dados de amostragem estatística e a metodologia de amostragem Minhash incluem:

Amostragem estatística
Metodologia de amostragem de Minhash
Dados de Público-alvo endereçável (dados de nível de cliente e segmento).
Relatórios de sobreposição (característica, segmento para característica e segmento para segmento)
A métrica Total de Dispositivos para um Profile Merge Rule.
Recomendações de característica
A Data Explorer usa dados de amostra na guia Search e qualquer Saved Searches
Audience Marketplace Recommendations
recommendation-more-help
de293fbf-b489-49b0-8daa-51ed303af695