Datainsamling och felfrekvens i utvalda Audience Manager-rapporter data-sampling-and-error-rates-in-selected-audience-manager-reports

En sammanfattning av den provtagningsmetod som används för vissa rapporter, felfrekvenser vid provtagning och en lista över rapporter som returnerar information baserat på provdata.

Samplingsförhållande för data data-sampling-ratio

Vissa Audience Manager-rapporter visar resultat baserat på en provuppsättning av den totala mängden tillgängliga data. Samplade data-förhållandet är 1:54. För rapporter där exempeldata används innebär detta att resultaten baseras på 1 post av varje uppsättning med 54 poster.

Dessa rapporter använder statistiska provdata eftersom de behöver en enorm mängd datorkraft för att generera resultat. Sampling hjälper till att hitta en balans mellan minskade datorkrav, bibehållna systemprestanda och ge korrekta resultat.

Felfrekvens error-rates

Fel kan uppstå i rapporter som genererar överlappande data. Ett fel definieras som procentandelen poster som:

  • Bör inte ha inkluderats i en rapport men har ändå lagts till.
  • Bör ha tagits med i en rapport men utelämnats.

Observera att våra tester och modeller visar att felfrekvensen minskar i en omvänd proportion till antalet poster i datauppsättningen. Datauppsättningar med många poster genererar färre fel än uppsättningar med ett litet antal poster. Låt oss titta på detta påstående mer kvantitativt. Som framgår av följande tabell kommer 95 % av rapportresultaten att ligga under en viss felfrekvens för ett visst antal poster.

Antal poster
Felfrekvens
500 - 1,000
95 % har en felfrekvens på 42 %.
1,000 - 1,500
95 % har en felfrekvens på 34 %.
10,000 - 50,000
95 % har en felfrekvens på 14 %.
50,000
95% are under a 6% error rate.
100,000
95% are under a 4% error rate.
500,000 (or more)
95% are under a 2% error rate.

Using the Minhash Sampling Methodology minhash

Based on the Minhash sampling methodology, Audience Manager uses a novel method to compute trait and segment estimators on top of a One Permutation Hashing data sketch. This new method produces a lower variance than the standard estimator for Jaccard similarity. See the section below for the reports that use this methodology.

Reports That Use Sampled Data reports-using-sampled-data

The Audience Manager reports that use statistical sampled data and the Minhash sampling methodology include:

Statistical sampling
Minhash sampling methodology
Addressable Audience data (customer- and segment-level data).
Overlap reports (trait-to-trait, segment-to-trait, and segment-to-segment)
Data Explorer uses sampled data in the Search tab and any Saved Searches
Audience Marketplace Recommendations
recommendation-more-help
audience-manager-help-using