Échantillonnage de données et taux d’erreur dans les rapports d’Audience Manager sélectionnés data-sampling-and-error-rates-in-selected-audience-manager-reports
Résumé de la méthodologie d’échantillonnage utilisée pour certains rapports, taux d’erreur d’échantillonnage et liste des rapports qui renvoient des informations sur la base de données échantillonnées.
Rapport d’échantillonnage de données data-sampling-ratio
Certains rapports Audience Manager affichent des résultats sur la base d’un échantillon de la quantité totale de données disponibles. Le rapport de données échantillonné est de 1:54. Pour les rapports qui utilisent des données échantillonnées, cela signifie que vos résultats sont basés sur 1 enregistrement sur chaque ensemble de 54 enregistrements.
Ces rapports utilisent des données échantillonnées statistiques, car ils ont besoin d’une puissance de calcul considérable pour générer des résultats. L’échantillonnage permet d’établir un équilibre entre la réduction des exigences de calcul, la conservation des performances du système et la fourniture de résultats précis.
Taux d’erreur error-rates
Des erreurs peuvent se produire dans les rapports qui génèrent des données de chevauchement. Une erreur est définie en tant que pourcentage d'enregistrements qui :
- N’aurait pas dû être inclus dans un rapport, mais a été ajouté de toute façon.
- Aurait dû être inclus dans un rapport, mais il a été exclu.
Il est important de noter que nos tests et modèles montrent que le taux d’erreur diminue dans une proportion inverse par rapport au nombre d’enregistrements dans votre jeu de données. Les jeux de données comportant de nombreux enregistrements génèrent moins d’erreurs que les jeux comportant un petit nombre d’enregistrements. Regardons cette assertion d'une manière plus quantitative. Comme illustré dans le tableau suivant, pour un nombre d’enregistrements défini, 95 % des résultats du rapport seront inférieurs à un taux d’erreur spécifique.
Utilisation de la méthodologie d’échantillonnage de hachage minhash
Sur la base de la méthodologie d’échantillonnage Minhash, l’Audience Manager utilise une nouvelle méthode pour calculer les estimateurs de caractéristiques et de segments au-dessus d’une esquisse de données de hachage d’une permutation. Cette nouvelle méthode produit une variance inférieure à celle de l’estimateur standard pour la similarité de Jaccard. Consultez la section ci-dessous pour connaître les rapports qui utilisent cette méthodologie.
Rapports qui utilisent des données échantillonnées reports-using-sampled-data
Les rapports Audience Manager qui utilisent des données échantillonnées statistiques et la méthodologie d’échantillonnage de l’empreinte digitale incluent :