選択した Audience Manager レポートでのデータサンプリングとエラー率
いくつかのレポートで使用されているサンプリング方法、サンプリングのエラー率についての概要、およびサンプルデータに基づく情報が返されるレポートのリスト。
データサンプリング率
一部の Audience Manager レポートでは、使用可能なすべてのデータのうちサンプリングしたセットに基づいて結果が表示されます。サンプリングされたデータの比率は 1:54 です。この場合、サンプリングされたデータを使用するレポートは、54 件のうち 1 件のレコードが結果として表示されます。
これらの統計レポートでサンプリングされたデータを使用しているのは、結果の生成に大量の計算が必要となるためです。サンプリングにより、必要な計算量の削減、システムパフォーマンスの維持、正確な結果の入手がすべてバランスよくおこなえます。
エラー率
重複データを生成するレポートでは、エラーが発生する場合があります。エラーは、以下に該当するレコードの割合として表されます。
- 本来レポートに含まれないはずが、追加されている。
- 本来レポートに含まれるはずが、含まれていない。
これまでのテストとモデルから、エラー率はデータセットのレコード数に反比例して 減少 することが判明しています。レコード数が多いデータセットでは、レコード数が少ないデータセットよりエラーが少なくなります。このアサーションについて、量的な面から見てみましょう。次の表からわかるように、所定のレコード数について、レポート結果の 95%が特定のエラー率を下回っています。
レコード数 | エラー率 |
---|---|
500~1,000 | 95%がエラー率 42%未満である。 |
1,000~1,500 | 95%がエラー率 34%未満である。 |
10,000~50,000 | 95%がエラー率 14%未満である。 |
50,000 | 95%がエラー率 6%未満である。 |
100,000 | 95%がエラー率 4%未満である。 |
500,000 以上 | 95%がエラー率 2%未満である。 |
Minhash サンプリング方法の使用
Audience Managerは、Minhash サンプリング手法に基づき、One Permutation Hashing(1 置換ハッシュ)データスケッチの上にある特性およびセグメント評価子を計算する新しい方法を使用します。この新しい方法では、Jaccard の類似性に関する標準の見積もりよりも偏差が少なくなります。この方法を使用するレポートについては、以下のセクションを参照してください。
サンプリングデータを使用するレポート
統計的にサンプリングされたデータと Minhash サンプリング手法を使用する Audience Manager レポートは、次のとおりです。
統計的サンプリング | Minhash サンプリング法 |
---|---|
アドレス可能なオーディエンスデータ(顧客レベルデータとセグメントレベルデータ)。 | 重複レポート(特性間、セグメント - 特性間、セグメント間) |
Profile Merge Ruleの合計デバイス数指標。 | 特性レコメンデーション |
Data Explorer は、「Search」タブおよび任意の Saved Searches のサンプリングデータを使用します | Audience Marketplace Recommendations |