Échantillonnage de données et taux d’erreur dans les rapports Audience Manager sélectionnés

Résumé de la méthodologie d'échantillonnage utilisée pour certains rapports, taux d'erreurs d'échantillonnage et liste de rapports qui renvoient des informations basées sur des données échantillonnées.

Taux d’échantillonnage des données

Certains Audience Manager rapports affichent les résultats en fonction d’un ensemble échantillonné de la quantité totale de données disponibles. Le rapport de données échantillonné est de 1:54. Pour les rapports qui utilisent des données échantillonnées, cela signifie que vos résultats sont basés sur un enregistrement sur chaque ensemble de 54 enregistrements.

Ces rapports utilisent des données statistiques échantillonnées parce qu'ils ont besoin d'une énorme puissance de calcul pour générer des résultats. L’échantillonnage permet d’équilibrer les exigences informatiques réduites, de maintenir les performances du système et de fournir des résultats précis.

Taux d'erreur

Des erreurs peuvent se produire dans les rapports qui génèrent des données de chevauchement. Une erreur est définie comme le pourcentage d'enregistrements qui :

  • N'aurait pas dû être inclus dans un rapport, mais a été ajouté de toute façon.
  • Aurait dû être inclus dans un rapport, mais il a été omis.

Il est important de noter que nos tests et modèles montrent que le taux d'erreur diminue inversement proportionnellement au nombre d'enregistrements dans votre jeu de données. Les ensembles de données contenant de nombreux enregistrements génèrent moins d’erreurs que les ensembles contenant un petit nombre d’enregistrements. Examinons cette affirmation de manière plus quantitative. Comme le montre le tableau suivant, pour un nombre défini d'enregistrements, 95 % des résultats du rapport seront inférieurs à un taux d'erreur spécifique.

Nombre d'enregistrements Taux d’erreurs
500 - 1,000 95 % ont un taux d’erreur de 42 %.
1,000 - 1,500 95 % ont un taux d’erreur de 34 %.
10,000 - 50,000 95 % ont un taux d’erreur de 14 %.
50 000 95 % ont un taux d’erreur de 6 %.
100,000 95 % ont un taux d’erreur de 4 %.
500 000 (ou plus) 95 % ont un taux d’erreur de 2 %.

Utilisation de la méthodologie d’échantillonnage de hachage

En se basant sur la méthodologie d'échantillonnage Minhash , l'Audience Manager utilise une nouvelle méthode pour calculer les estimateurs de caractéristiques et de segments au-dessus d'une esquisse de données de hachage d'une permutation unique. Cette nouvelle méthode produit une variance plus faible que l'estimateur standard pour la similarité de Jaccard. Reportez-vous à la section ci-dessous pour les rapports qui utilisent cette méthodologie.

Rapports utilisant des données échantillonnées

Les Audience Manager rapports qui utilisent des données statistiques échantillonnées et la méthodologie d'échantillonnage de Minhash comprennent :

Échantillonnage statistique Méthodologie d’échantillonnage au hachage
Données d’Audience adressables (données au niveau du client et du segment). Rapports de chevauchement (trait à trait, segment à trait et segment à segment)
Mesure Total des périphériques pour un Profile Merge Rulegroupe. Recommandations de caractéristiques
Le Data Explorer utilise des données échantillonnées dans l’ Search onglet et les Saved Searches Audience Marketplace Recommendations

Sur cette page