Data Sampling and Error Rates in Selected Audience Manager Reports data-sampling-and-error-rates-in-selected-audience-manager-reports

A summary of the sampling methodology used for some reports, sampling error rates, and a list of reports that return information based on sampled data.

Data Sampling Ratio data-sampling-ratio

Some Audience Manager reports display results based on a sampled set of the total amount of available data. The sampled data ratio is 1:54. For reports that use sampled data, this means your results are based on 1 record out of every set of 54 records.

These reports use statistical sampled data because they need a tremendous amount of computing power to generate results. Sampling helps strike a balance between reduced computational demands, maintaining system performance, and providing accurate results.

Error Rates error-rates

Errors can occur in reports that generate overlap data. An error is defined as the percentage of records that:

  • Should not have been included in a report but were added anyway.
  • Should have been included in a report but were left out.

It’s important to note that our tests and models show that the error rate decreases in an inverse proportion to the number of records in your data set. Data sets that have a lot of records generate fewer errors than sets with a small number of records. Let’s look at this assertion in a more quantitative manner. As shown in the following table, for a set number of records, 95% of your report results will be below a specific error rate.

Number of Records
Error Rate
500 - 1,000
95% are under a 42% error rate.
1,000 - 1,500
95% are under a 34% error rate.
10,000 - 50,000
95% are under a 14% error rate.
50.000
Il 95% è al di sotto di un tasso di errore del 6%.
100.000
Il 95% è al di sotto di un tasso di errore del 4%.
500.000 (o più)
Il 95% è al di sotto di un tasso di errore del 2%.

Utilizzo della metodologia di campionamento Minhash minhash

In base alla metodologia di campionamento Minhash, Audience Manager utilizza un nuovo metodo per calcolare i stimatori di caratteristiche e segmenti sopra uno schizzo di dati con hash a una permutazione. Questo nuovo metodo produce una varianza inferiore rispetto allo stimatore standard per la somiglianza Jaccard. Consulta la sezione seguente per i rapporti che utilizzano questa metodologia.

Rapporti Che Utilizzano Dati Campionati reports-using-sampled-data

I report Audience Manager che utilizzano i dati statistici campionati e la metodologia di campionamento Minhash includono:

Campionamento statistico
Metodologia di campionamento Minhash
Dati del pubblico indirizzabile (dati a livello di cliente e segmento).
Rapporti di sovrapposizione (da caratteristica a caratteristica, da segmento a caratteristica e da segmento a segmento)
Data Explorer utilizza i dati campionati nella scheda Search e in qualsiasi Saved Searches
Consigli di Audience Marketplace
recommendation-more-help
audience-manager-help-using