Échantillonnage de données et taux d’erreur dans les rapports d’Audience Manager sélectionnés
Résumé de la méthodologie d’échantillonnage utilisée pour certains rapports, taux d’erreur d’échantillonnage et liste des rapports qui renvoient des informations sur la base de données échantillonnées.
Rapport d’échantillonnage de données
Certains rapports Audience Manager affichent des résultats sur la base d’un échantillon de la quantité totale de données disponibles. Le rapport de données échantillonné est de 1:54. Pour les rapports qui utilisent des données échantillonnées, cela signifie que vos résultats sont basés sur 1 enregistrement sur chaque ensemble de 54 enregistrements.
Ces rapports utilisent des données échantillonnées statistiques, car ils ont besoin d’une puissance de calcul considérable pour générer des résultats. L’échantillonnage permet d’établir un équilibre entre la réduction des exigences de calcul, la conservation des performances du système et la fourniture de résultats précis.
Taux d’erreur
Des erreurs peuvent se produire dans les rapports qui génèrent des données de chevauchement. Une erreur est définie en tant que pourcentage d'enregistrements qui :
- N’aurait pas dû être inclus dans un rapport, mais a été ajouté de toute façon.
- Aurait dû être inclus dans un rapport, mais il a été exclu.
Il est important de noter que nos tests et modèles montrent que le taux d’erreur diminue dans une proportion inverse par rapport au nombre d’enregistrements dans votre jeu de données. Les jeux de données comportant de nombreux enregistrements génèrent moins d’erreurs que les jeux comportant un petit nombre d’enregistrements. Regardons cette assertion d'une manière plus quantitative. Comme illustré dans le tableau suivant, pour un nombre d’enregistrements défini, 95 % des résultats du rapport seront inférieurs à un taux d’erreur spécifique.
Nombre d’enregistrements | Taux d’erreur |
---|---|
500 à 1 000 | 95 % sont sous un taux d’erreur de 42 %. |
1 000 à 1 500 | 95 % sont sous un taux d’erreur de 34 %. |
10 000 à 50 000 | 95 % sont sous un taux d’erreur de 14 %. |
50 000 | 95 % sont sous un taux d’erreur de 6 %. |
100 000 | 95 % sont sous un taux d’erreur de 4 %. |
500 000 (ou plus) | 95 % sont sous un taux d’erreur de 2 %. |
Utilisation de la méthodologie d’échantillonnage de hachage
Sur la base de la méthodologie d’échantillonnage Minhash, l’Audience Manager utilise une nouvelle méthode pour calculer les estimateurs de caractéristiques et de segments au-dessus d’une esquisse de données de hachage d’une permutation. Cette nouvelle méthode produit une variance inférieure à celle de l’estimateur standard pour la similarité de Jaccard. Consultez la section ci-dessous pour connaître les rapports qui utilisent cette méthodologie.
Rapports qui utilisent des données échantillonnées
Les rapports Audience Manager qui utilisent des données échantillonnées statistiques et la méthodologie d’échantillonnage de l’empreinte digitale incluent :
Tirage statistique | Méthodologie d’échantillonnage par hachage |
---|---|
Données d’audience adressable (données au niveau du client et du segment). | Rapports de chevauchement (caractéristique à caractéristique, segment à caractéristique et segment à segment) |
Mesure Total appareils pour un Profile Merge Rule. | Recommandations de caractéristiques |
Data Explorer utilise des données échantillonnées dans l’onglet Search et tout Saved Searches | Audience Marketplace Recommendations |